朴素贝叶斯分类器计算答案

【问题标题】：Naive bayes classifier calculation朴素贝叶斯分类器计算
【发布时间】：2014-09-18 13:20:09
【问题描述】：

我正在尝试使用朴素贝叶斯分类器对我的数据集进行分类。我的问题是：

1- 通常当我们尝试计算相似度时，我们使用公式：

P(c|x)= P(c|x1) * P(c|x2)*...P(c|xn)*P(c) 。但在某些示例中，为了避免得到非常小的结果，我们使用 P(c|x)= exp(log(c|x1) + log(c|x2)+...log(c|xn) + logP （C））。谁能向我解释一下这两个公式之间的区别，它们是用来计算“相似度”还是用来计算“信息增益”的。

2- 在某些情况下，当我们尝试对数据集进行分类时，某些关节为空。一些人使用“LAPLACE 平滑”技术来避免空关节。这种技术不会影响我们分类的准确性吗？

提前感谢您的所有时间。我只是这个算法的新手，并试图了解更多关于它的信息。那么有什么推荐的论文我应该阅读吗？非常感谢。

【问题讨论】：

标签： classification bayesian date-arithmetic

【解决方案1】：

假设您在第二个等式中丢失了大部分P，我将尝试回答您的第一个问题。我认为您最终要达到的方程式是：

log P(c|x) = log P(c|x1) + log P(c|x2) + ... + log P(c)

如果是这样，示例表明在许多统计计算中，使用分布函数的对数通常比使用分布函数本身更容易。

实际上，这与许多统计分布都涉及指数函数这一事实有关。例如，您可以通过解决数学上不太复杂的问题（如果我们正在经历求导数和求方程根的整个正式过程）来找到高斯分布K*exp^(-s_0*(x-x_0)^2) 的最大值出现在哪里，找到它的最大值出现对数K-s_0*(x-x_0)^2。

这导致许多地方“取两边的对数”是优化计算中的标准步骤。

此外，在计算上，当您优化可能涉及许多乘法项的似然函数时，将小浮点数的对数相加比将小浮点数相乘更不可能导致数值问题。

【讨论】：

您好先生，非常感谢您的回答，现在事情对我来说有点清楚了。顺便说一句，如果你当然不介意，我还有另一个问题。首先，朴素贝叶斯是否只将特征分为两类（例如男性|女性），或者我们可以设置任意数量的类（我使用了 3 个类，它给了我正确的结果）。 Sec 我一直在阅读其他算法，我发现朴素贝叶斯的优点之一是：它接受数字和非数字值，而 Kmean 算法并非如此。但是我找不到决策树的任何优势，所以是有吗？？