【问题标题】:Does my Naive Bayes training data need to be proportional?我的朴素贝叶斯训练数据是否需要成比例?
【发布时间】:2016-01-28 16:31:51
【问题描述】:

我将以垃圾邮件分类为例。规范的方法是对随机抽样的电子邮件进行手动分类,并使用它们来训练 NB 分类器。

太好了,现在说我添加了一堆我知道不是垃圾邮件的存档电子邮件。这是否会扭曲我的分类器结果,因为现在垃圾邮件的比例:非垃圾邮件不再具有代表性?我能想到的两种方式:

  • 这些功能变得过于非垃圾邮件。
  • 该算法在其分类中隐含地使用概率(垃圾邮件)(与概率(医疗状况)因医疗状况的罕见性而贬值的方式相同,即使测试结果为阳性。

一般来说,训练数据越多越好,所以如果不破坏算法,我想添加它。

【问题讨论】:

  • 这可能更适合DSE。它更多地与数据科学方法和不同训练集的影响有关,而不是编程问题。
  • 谢谢,我认为 Ed 的回答对我有用,但我 asked it there。 PS你的链接有错别字。

标签: machine-learning classification bayesian training-data naivebayes


【解决方案1】:

可以对所有数据进行训练,而不必担心比例问题。也就是说,正如您所观察到的,扭曲比例会扭曲概率并导致不良结果。如果您有 20% 的垃圾邮件流,并针对 99% 的垃圾邮件和 1% 的正常电子邮件 (ham) 训练垃圾邮件过滤器,那么您最终会得到一个超激进的过滤器。

常见的方法是两步:

  1. 通过运行具有代表性的数据样本(例如,垃圾邮件过滤场景中的 1,000 封电子邮件)来为过滤器提供种子。
  2. 当过滤器遇到额外数据时,只有在过滤器出错时才更新权重。这称为“错误训练”。

如果您采用这种方法,您的过滤器将不会被突然爆发的垃圾邮件弄糊涂,这些垃圾邮件恰好包括“小号”一词以及真正的垃圾邮件。它只会在必要时进行调整,但会在出现错误时尽快赶上。这是防止大多数垃圾邮件发送者现在采用的“贝叶斯中毒”方法的一种方法。他们可以用大量的垃圾来混淆他们的信息,但他们只有这么多的方式来描述他们的产品或服务,而且这些词永远都是垃圾。

【讨论】:

    猜你喜欢
    • 2018-08-13
    • 2014-02-21
    • 2015-06-25
    • 2020-06-28
    • 1970-01-01
    • 2020-11-22
    • 2020-09-13
    • 2015-10-28
    相关资源
    最近更新 更多