【问题标题】:why naive bayes requires balanced training data?为什么朴素贝叶斯需要平衡的训练数据?
【发布时间】:2018-08-13 06:28:07
【问题描述】:

我使用朴素贝叶斯算法创建了一个词情感应用程序。

这个分类训练数据有两类标准,即正训练数据和负训练数据。我对已分组的每个训练数据都使用了一个独特的词。所以,我有每个数据标准的所有唯一词。然后,我计算每个唯一词出现的概率值。

问题是当我使用不均匀的训练数据时。例如:我使用了 60% 的负训练数据和 40% 的正训练数据。那么测试数据的结果就会更有可能出现阴性结果,反之亦然。

除了我必须使用平衡数据之外,我应该怎么做才能解决这个问题?还有我应该添加的其他方法吗?

【问题讨论】:

    标签: artificial-intelligence text-processing sentiment-analysis naivebayes


    【解决方案1】:

    朴素贝叶斯需要平衡的训练数据,因为每个参数的可能性都会受到先验值(priority value)的影响。

    这个先验值取自每个数据的类别。 当我解释这种事情时,也许你已经明白了。

    【讨论】:

      猜你喜欢
      • 2016-01-28
      • 2014-02-21
      • 2015-06-25
      • 2015-10-28
      • 2020-06-28
      • 1970-01-01
      • 2014-08-13
      • 2020-09-13
      相关资源
      最近更新 更多