具有变化先验概率的文本数据集上的多类 NaiveBayes 分类答案

【问题标题】：Multiclass NaiveBayes classification on a text dataset with changing prior probabilities具有变化先验概率的文本数据集上的多类 NaiveBayes 分类
【发布时间】：2016-03-11 09:32:15
【问题描述】：

我遇到了一个使用朴素贝叶斯将文档分类为各种类别的问题。

实际上，我想知道 P(C) 或我们最初拥有的类的先验概率会随着时间的推移而不断变化。例如对于类 - [音乐、体育、新闻] 初始概率是 [.25, .25, .50]

现在假设在某个月份的一段时间内，如果我们有大量的与体育相关的文档（例如 80% 体育）然后我们的 NaiveBayes 将失败，因为它将基于一个先验概率因子，即只有 25% 是体育。遇到这种情况我们该如何处理？

【问题讨论】：

在线学习（或在线模型更新）可以帮助您。它本质上是一种在模型经过训练后更新模型的方法，即通过为模型提供更多数据样本以在线对其进行更新。但是，简而言之，如果您先前的更改（或更复杂的东西），您应该重新训练或更新您的模型。

标签： python machine-learning nltk naivebayes

【解决方案1】：

如果您知道Priors更改，您应定期改装它们（通过收集用于新前锋的新培训集）。通常 - 如果Priors更改，则每mL方法都会在准确性方面失败，并且您不会将此信息提供给您的分类器。您需要至少对分类器的某种反馈。然后，如果例如，如果分类是正确的，则可以获得闭环，如果分类是正确的，并且您认为只有Priors更改 - 您可以简单地在线学习更改的前提（通过任何优化，而且它相当容易适合新的前锋）。

一般来说，你应该看看概念漂移 em>的现象。

【讨论】：

你说 - “如果你知道的那个魔鬼改变，你应该定期改装它们......”......但不是一个矛盾的声明。我的意思是一次又一次地收集/准备培训....如果我手动这样做，那么如果我通过机器学习，我会成为一个圆形逻辑。 span>