朴素贝叶斯分类器中的“朴素”是什么？答案

【问题标题】：What is "naive" in a naive Bayes classifier?朴素贝叶斯分类器中的“朴素”是什么？
【发布时间】：2012-05-23 19:00:53
【问题描述】：

什么是朴素贝叶斯？

【问题讨论】：

小贩不必为难，你问了一个好问题。 +1

【解决方案1】：

其实有一个很好的例子on Wikipedia：

简单来说，朴素贝叶斯分类器假定在给定类变量的情况下，某个类的特定特征的存在（或不存在）与任何其他特征的存在（或不存在）无关。例如，如果一个水果是红色的、圆形的，并且直径约为 4 英寸，则它可能被认为是一个苹果。即使这些特征相互依赖或依赖于其他特征的存在，朴素贝叶斯分类器也会考虑所有这些属性独立地影响了这种水果是苹果的概率。

基本上，它是“幼稚的”，因为它做出的假设可能会或可能不会被证明是正确的。

【讨论】：

维基百科文章正确地解释了它，但我不同意“它做出的假设可能会或可能不会被证明是正确的”。使用适量的训练数据，它可以很好地过滤掉不相关的参数。 “天真的”部分是不考虑参数之间的依赖关系..因此可能需要查看冗余数据。

【解决方案2】：

如果您的数据由特征向量 X = {x1, x2, ... x10} 和您的类标签 y = {y1, y2, .. y5} 组成，贝叶斯分类器会将正确的类标签识别为一个最大化以下公式：

P(y|X) = P(X|y) * P(y) = P(x1,x2,...,x10|y) * P(y)

现在，它仍然不幼稚。然而，P(x1,x2,...,x10|y) 很难计算，所以我们假设特征是独立的，这就是我们所说的朴素假设，因此，我们最终得到以下公式：

P(y|X) = P(x1|y) * P(x2|y) * ... * P(x10|y) * P(y)

【讨论】：

【解决方案3】：

之所以称为朴素，是因为它假设所有属性都是相互独立的。这个假设就是为什么它被称为幼稚的原因，因为在许多现实世界的情况下这并不适合。尽管如此，分类器在许多现实世界的情况下都表现得非常好，并且在某些情况下（尽管不是全部）具有与中性网络和 SVM 相当的性能。

【讨论】：

【解决方案4】：

对于分类，当我们找到联合分布时，问题在于它只是反映了训练数据，而且也很难计算。所以我们需要一些更有用的泛化方法。

朴素模型强烈概括每个属性独立于任何其他属性分布。

它确实有助于在很大程度上不关心属性之间的依赖关系。

【讨论】：

【解决方案5】：

这里我分享了一个关于朴素贝叶斯分类器的实用解释的好文档，它会给你一个很好的想法。

click here

【讨论】：