【发布时间】:2018-08-13 06:28:07
【问题描述】:
我使用朴素贝叶斯算法创建了一个词情感应用程序。
这个分类训练数据有两类标准,即正训练数据和负训练数据。我对已分组的每个训练数据都使用了一个独特的词。所以,我有每个数据标准的所有唯一词。然后,我计算每个唯一词出现的概率值。
问题是当我使用不均匀的训练数据时。例如:我使用了 60% 的负训练数据和 40% 的正训练数据。那么测试数据的结果就会更有可能出现阴性结果,反之亦然。
除了我必须使用平衡数据之外,我应该怎么做才能解决这个问题?还有我应该添加的其他方法吗?
【问题讨论】:
标签: artificial-intelligence text-processing sentiment-analysis naivebayes