为什么朴素贝叶斯需要平衡的训练数据？答案

【问题标题】：why naive bayes requires balanced training data?为什么朴素贝叶斯需要平衡的训练数据？
【发布时间】：2018-08-13 06:28:07
【问题描述】：

我使用朴素贝叶斯算法创建了一个词情感应用程序。

这个分类训练数据有两类标准，即正训练数据和负训练数据。我对已分组的每个训练数据都使用了一个独特的词。所以，我有每个数据标准的所有唯一词。然后，我计算每个唯一词出现的概率值。

问题是当我使用不均匀的训练数据时。例如：我使用了 60% 的负训练数据和 40% 的正训练数据。那么测试数据的结果就会更有可能出现阴性结果，反之亦然。

除了我必须使用平衡数据之外，我应该怎么做才能解决这个问题？还有我应该添加的其他方法吗？

【问题讨论】：

【解决方案1】：

朴素贝叶斯需要平衡的训练数据，因为每个参数的可能性都会受到先验值（priority value）的影响。

这个先验值取自每个数据的类别。当我解释这种事情时，也许你已经明白了。

【讨论】：