【发布时间】:2016-03-11 09:32:15
【问题描述】:
我遇到了一个使用朴素贝叶斯将文档分类为各种类别的问题。
实际上,我想知道 P(C) 或我们最初拥有的类的先验概率会随着时间的推移而不断变化。 例如对于类 - [音乐、体育、新闻] 初始概率是 [.25, .25, .50]
现在假设在某个月份的一段时间内,如果我们有大量的 与体育相关的文档(例如 80% 体育)然后我们的 NaiveBayes 将失败,因为它将基于一个先验概率因子,即只有 25% 是体育。 遇到这种情况我们该如何处理?
【问题讨论】:
-
在线学习(或在线模型更新)可以帮助您。它本质上是一种在模型经过训练后更新模型的方法,即通过为模型提供更多数据样本以在线对其进行更新。但是,简而言之,如果您先前的更改(或更复杂的东西),您应该重新训练或更新您的模型。
标签: python machine-learning nltk naivebayes