【问题标题】:Multiclass NaiveBayes classification on a text dataset with changing prior probabilities具有变化先验概率的文本数据集上的多类 NaiveBayes 分类
【发布时间】:2016-03-11 09:32:15
【问题描述】:

我遇到了一个使用朴素贝叶斯将文档分类为各种类别的问题。

实际上,我想知道 P(C) 或我们最初拥有的类的先验概率会随着时间的推移而不断变化。 例如对于类 - [音乐、体育、新闻] 初始概率是 [.25, .25, .50]

现在假设在某个月份的一段时间内,如果我们有大量的 与体育相关的文档(例如 80% 体育)然后我们的 NaiveBayes 将失败,因为它将基于一个先验概率因子,即只有 25% 是体育。 遇到这种情况我们该如何处理?

【问题讨论】:

  • 在线学习(或在线模型更新)可以帮助您。它本质上是一种在模型经过训练后更新模型的方法,即通过为模型提供更多数据样本以在线对其进行更新。但是,简而言之,如果您先前的更改(或更复杂的东西),您应该重新训练或更新您的模型。

标签: python machine-learning nltk naivebayes


【解决方案1】:

如果您知道Priors更改,您应定期改装它们(通过收集用于新前锋的新培训集)。通常 - 如果Priors更改,则每mL方法都会在准确性方面失败,并且您不会将此信息提供给您的分类器。您需要至少对分类器的某种反馈。然后,如果例如,如果分类是正确的,则可以获得闭环,如果分类是正确的,并且您认为只有Priors更改 - 您可以简单地在线学习更改的前提(通过任何优化,而且它相当容易适合新的前锋)。

一般来说,你应该看看概念漂移 em>的现象。

【讨论】:

  • 你说 - “如果你知道的那个魔鬼改变,你应该定期改装它们......”......但不是一个矛盾的声明。我的意思是一次又一次地收集/准备培训....如果我手动这样做,那么如果我通过机器学习,我会成为一个圆形逻辑。 span>
猜你喜欢
  • 2018-05-10
  • 2019-11-10
  • 2020-11-16
  • 2017-01-14
  • 2012-03-22
  • 2018-01-09
  • 2016-10-18
  • 2020-05-23
  • 2018-10-12
相关资源
最近更新 更多