【发布时间】:2016-05-09 01:32:13
【问题描述】:
我正在构建一个文本分类器,用于将评论分类为正面或负面。我有一个关于 NaiveBayes 分类器公式的查询:
| P(label) * P(f1|label) * ... * P(fn|label)
| P(label|features) = --------------------------------------------
| P(features)
根据我的理解,如果事件一起发生,概率会成倍增加。例如。 A和B同时发生的概率是多少。在这种情况下乘以概率是否合适?感谢有人可以详细解释这个公式。我正在尝试进行一些手动分类(只是为了检查一些算法生成的分类,这些分类看起来有点不对劲,这将使我能够确定错误分类的确切原因)。
在基本概率术语中,要计算 p(label|feature1,feature2),我们必须将概率相乘以计算特征 1 和特征 2 的出现。但在这种情况下,我不是试图计算标准概率,而是文本的积极/消极强度。因此,如果我总结概率,我会得到一个可以识别正/负商的数字。这有点不合常规,但你认为这可以带来一些好的结果吗?原因是总和和产品可能完全不同。例如。 2*2 =4 但 3*1 = 3
【问题讨论】:
标签: classification probability naivebayes