【发布时间】:2014-09-18 13:20:09
【问题描述】:
我正在尝试使用朴素贝叶斯分类器对我的数据集进行分类。我的问题是:
1- 通常当我们尝试计算相似度时,我们使用公式:
P(c|x)= P(c|x1) * P(c|x2)*...P(c|xn)*P(c) 。但在某些示例中,为了避免得到非常小的结果,我们使用 P(c|x)= exp(log(c|x1) + log(c|x2)+...log(c|xn) + logP (C))。谁能向我解释一下这两个公式之间的区别,它们是用来计算“相似度”还是用来计算“信息增益”的。
2- 在某些情况下,当我们尝试对数据集进行分类时,某些关节为空。一些人使用“LAPLACE 平滑”技术来避免空关节。这种技术不会影响我们分类的准确性吗?
提前感谢您的所有时间。我只是这个算法的新手,并试图了解更多关于它的信息。那么有什么推荐的论文我应该阅读吗?非常感谢。
【问题讨论】:
标签: classification bayesian date-arithmetic