我的朴素贝叶斯训练数据是否需要成比例？答案

【问题标题】：Does my Naive Bayes training data need to be proportional?我的朴素贝叶斯训练数据是否需要成比例？
【发布时间】：2016-01-28 16:31:51
【问题描述】：

我将以垃圾邮件分类为例。规范的方法是对随机抽样的电子邮件进行手动分类，并使用它们来训练 NB 分类器。

太好了，现在说我添加了一堆我知道不是垃圾邮件的存档电子邮件。这是否会扭曲我的分类器结果，因为现在垃圾邮件的比例：非垃圾邮件不再具有代表性？我能想到的两种方式：

这些功能变得过于非垃圾邮件。
该算法在其分类中隐含地使用概率（垃圾邮件）（与概率（医疗状况）因医疗状况的罕见性而贬值的方式相同，即使测试结果为阳性。

一般来说，训练数据越多越好，所以如果不破坏算法，我想添加它。

【问题讨论】：

这可能更适合DSE。它更多地与数据科学方法和不同训练集的影响有关，而不是编程问题。
谢谢，我认为 Ed 的回答对我有用，但我 asked it there。 PS你的链接有错别字。

标签： machine-learning classification bayesian training-data naivebayes

【解决方案1】：

您可以对所有数据进行训练，而不必担心比例问题。也就是说，正如您所观察到的，扭曲比例会扭曲概率并导致不良结果。如果您有 20% 的垃圾邮件流，并针对 99% 的垃圾邮件和 1% 的正常电子邮件 (ham) 训练垃圾邮件过滤器，那么您最终会得到一个超激进的过滤器。

常见的方法是两步：

通过运行具有代表性的数据样本（例如，垃圾邮件过滤场景中的 1,000 封电子邮件）来为过滤器提供种子。
当过滤器遇到额外数据时，只有在过滤器出错时才更新权重。这称为“错误训练”。

如果您采用这种方法，您的过滤器将不会被突然爆发的垃圾邮件弄糊涂，这些垃圾邮件恰好包括“小号”一词以及真正的垃圾邮件。它只会在必要时进行调整，但会在出现错误时尽快赶上。这是防止大多数垃圾邮件发送者现在采用的“贝叶斯中毒”方法的一种方法。他们可以用大量的垃圾来混淆他们的信息，但他们只有这么多的方式来描述他们的产品或服务，而且这些词永远都是垃圾。

【讨论】：