机器学习 - 分类算法答案

【问题标题】：Machine Learning - Classification algorithm机器学习 - 分类算法
【发布时间】：2012-03-14 10:52:46
【问题描述】：

我想求以下概率：

P(y=1/n=k; thetha)

读作：

概率，给定的词数 = k，预测是第 1 类，由 thetha 参数化

传统分类没有条件概率（右）

P(y = 1; thetha)

我该如何解决这个问题？

编辑：

例如，假设我想根据附件的数量来预测电子邮件是否为垃圾邮件。让y=1 表示垃圾邮件，y=0 为非垃圾邮件。

所以，

P(y = 1/num_attachements=0; some attributes)
and so on!!

这有意义吗？

【问题讨论】：

非常不清楚的问题。指定此任务的应用程序，对字数k 的影响以及其他参数theta 的影响。也没有“传统分类”之类的东西。您很可能对基于概率论的分类器（例如朴素贝叶斯）感兴趣，它可以很容易地与其他概率论方法结合使用。
@ffriend：请看一下编辑谢谢让我知道，因为它仍然不清楚

【解决方案1】：

通常附件数量只是另一个属性，因此您的概率与

相同

P(y = 1 | all attributes)

但是，如果您对附件有一些特殊处理（例如，其他属性是数字，附件是布尔值），您可以单独计算它们，然后组合为：

P(C|A, B) = P(C|A) * P(C|B) / P(C)

其中C 代表事件y = 1，A - 代表附件，B 代表其他属性。

请参阅this paper 了解几个 Nave Bayes 分类器的描述。

【讨论】：

你的公式对我来说毫无意义。你有P(y = 1 | A, B) = 1/Z * P(y = 1, A, B) = 1/Z * P(y = 1) * P(A, B | y = 1)，其中Z = P(A, B)。然后，朴素贝叶斯模型假设A 和B 是独立的，知道y = 1。所以你会得到P(y = 1 | A, B) = 1/Z * P(y = 1) * P(A | y = 1) * P(B | y = 1)。
@Edouard：实际上你是对的——我对这种情况做了标准但不合理的假设，即P(y = 1) 等于P(y = 0)（即所有类的概率都是相等的）。我更新了我的答案以考虑到这个假设，并且仍然使用概率P(C|A) 和P(C|B)，以防它们是单独计算的。您的最后一个公式是等效的，并且是计算相同事物的另一种方法 - 您可以通过将贝叶斯规则应用于您的 P(A|C) 和 P(B|C) 来获得我的公式。

【解决方案2】：

使用朴素的 Baisean 分类器。您可以很快自己编写代码或使用/查看 nltk 库。

【讨论】：