【问题标题】:Naive bayes classifier calculation朴素贝叶斯分类器计算
【发布时间】:2014-09-18 13:20:09
【问题描述】:

我正在尝试使用朴素贝叶斯分类器对我的数据集进行分类。我的问题是:

1- 通常当我们尝试计算相似度时,我们使用公式:

P(c|x)= P(c|x1) * P(c|x2)*...P(c|xn)*P(c) 。但在某些示例中,为了避免得到非常小的结果,我们使用 P(c|x)= exp(log(c|x1) + log(c|x2)+...log(c|xn) + logP (C))。谁能向我解释一下这两个公式之间的区别,它们是用来计算“相似度”还是用来计算“信息增益”的。

2- 在某些情况下,当我们尝试对数据集进行分类时,某些关节为空。一些人使用“LAPLACE 平滑”技术来避免空关节。这种技术不会影响我们分类的准确性吗?

提前感谢您的所有时间。我只是这个算法的新手,并试图了解更多关于它的信息。那么有什么推荐的论文我应该阅读吗?非常感谢。

【问题讨论】:

    标签: classification bayesian date-arithmetic


    【解决方案1】:

    假设您在第二个等式中丢失了大部分P,我将尝试回答您的第一个问题。我认为您最终要达到的方程式是:

    log P(c|x) = log P(c|x1) + log P(c|x2) + ... + log P(c)

    如果是这样,示例表明在许多统计计算中,使用分布函数的对数通常比使用分布函数本身更容易。

    实际上,这与许多统计分布都涉及指数函数这一事实有关。例如,您可以通过解决数学上不太复杂的问题(如果我们正在经历求导数和求方程根的整个正式过程)来找到高斯分布K*exp^(-s_0*(x-x_0)^2) 的最大值出现在哪里,找到它的最大值出现对数K-s_0*(x-x_0)^2

    这导致许多地方“取两边的对数”是优化计算中的标准步骤。

    此外,在计算上,当您优化可能涉及许多乘法项的似然函数时,将小浮点数的对数相加比将小浮点数相乘更不可能导致数值问题。

    【讨论】:

    • 您好先生,非常感谢您的回答,现在事情对我来说有点清楚了。顺便说一句,如果你当然不介意,我还有另一个问题。首先,朴素贝叶斯是否只将特征分为两类(例如男性|女性),或者我们可以设置任意数量的类(我使用了 3 个类,它给了我正确的结果)。 Sec 我一直在阅读其他算法,我发现朴素贝叶斯的优点之一是:它接受数字和非数字值,而 Kmean 算法并非如此。但是我找不到决策树的任何优势,所以是有吗??
    猜你喜欢
    • 2017-01-10
    • 2015-10-09
    • 2015-08-27
    • 2018-02-06
    • 2012-07-02
    • 2018-07-17
    • 2015-06-25
    • 2012-02-11
    相关资源
    最近更新 更多