三个朴素贝叶斯分类器的区别答案

【问题标题】：Difference of three Naive Bayes classifiers三个朴素贝叶斯分类器的区别
【发布时间】：2018-07-12 20:11:34
【问题描述】：

抱歉，有些语法错误和用词不当。

我目前正在处理文本分类，试图对电子邮件进行分类。

经过研究，我发现多项朴素贝叶斯和伯努利朴素贝叶斯更常用于文本分类。伯努利只关心这个词是否发生。多项式关心单词出现的次数。

对于高斯朴素贝叶斯，它通常用于连续数据和正态分布数据，例如：身高，体重但是我们不使用高斯朴素贝叶斯进行文本分类的原因是什么？如果我们把它应用到文本分类中会发生什么不好的事情吗？

【问题讨论】：

标签： python machine-learning naivebayes

【解决方案1】：

贝叶斯分类器使用概率规则，您提到的三个与以下规则有关：

贝叶斯概率：https://en.wikipedia.org/wiki/Bayesian_probability
高斯分布：https://en.wikipedia.org/wiki/Normal_distribution
伯努利分布：https://en.wikipedia.org/wiki/Bernoulli_distribution
多项分布：https://en.wikipedia.org/wiki/Multinomial_distribution

您必须针对您拥有的数据选择要使用的概率规则（或全部尝试）。

我认为您在网站或研究论文中所读到的内容与电子邮件数据通常遵循伯努利或多项式分布这一事实有关。您可以而且我鼓励您尝试使用高斯分布，如果您的数据可以适合高斯分布，您应该很快就知道。

但是，我建议您阅读上面的链接，如果您了解解决方案 A 或 B 比解决方案 C 更有效的原因，您将对您的工作有更好的理解。

【讨论】：

请分享每个链接的相关部分。如果他们失败了，您的回答将无济于事。
我实际上不能更具体，他需要对这些分布有更广泛的了解。不过，我会尝试一个小编辑
对此我不确定。设 3 为正面文本中出现“好”的平均数量。
如果 'good' 在测试用例中出现 4 次被视为不如 'good' 出现 3 次？
^ 高斯朴素贝叶斯

【解决方案2】：

我们使用基于我们拥有的数据集类型的算法。伯努利朴素贝叶斯擅长处理布尔/二进制属性，而多项朴素贝叶斯擅长处理离散值，而高斯朴素贝叶斯擅长处理连续值。考虑三种情况 1) 考虑一个包含 has_diabetes、has_bp、has_甲状腺等列的数据集，然后将该人归类为健康与否。在这种情况下，Bernoulli NB 会很好地工作。 2）考虑一个数据集，该数据集具有不同学科的不同学生的分数，并且您想预测该学生是否聪明。那么在这种情况下，多项式 NB 可以正常工作。 3）考虑一个有学生体重的数据集，你正在预测他们的身高，那么在这种情况下，GaussianNB 会很好。

【讨论】：