【发布时间】:2016-01-28 16:31:51
【问题描述】:
我将以垃圾邮件分类为例。规范的方法是对随机抽样的电子邮件进行手动分类,并使用它们来训练 NB 分类器。
太好了,现在说我添加了一堆我知道不是垃圾邮件的存档电子邮件。这是否会扭曲我的分类器结果,因为现在垃圾邮件的比例:非垃圾邮件不再具有代表性?我能想到的两种方式:
- 这些功能变得过于非垃圾邮件。
- 该算法在其分类中隐含地使用概率(垃圾邮件)(与概率(医疗状况)因医疗状况的罕见性而贬值的方式相同,即使测试结果为阳性。
一般来说,训练数据越多越好,所以如果不破坏算法,我想添加它。
【问题讨论】:
-
这可能更适合DSE。它更多地与数据科学方法和不同训练集的影响有关,而不是编程问题。
-
谢谢,我认为 Ed 的回答对我有用,但我 asked it there。 PS你的链接有错别字。
标签: machine-learning classification bayesian training-data naivebayes