【问题标题】:Machine Learning - Classification algorithm机器学习 - 分类算法
【发布时间】:2012-03-14 10:52:46
【问题描述】:

我想求以下概率:

P(y=1/n=k; thetha) 

读作:

概率,给定的词数 = k,预测是第 1 类,由 thetha 参数化

传统分类没有条件概率(右)

P(y = 1; thetha) 

我该如何解决这个问题?

编辑:

例如,假设我想根据附件的数量来预测电子邮件是否为垃圾邮件。 让y=1 表示垃圾邮件,y=0 为非垃圾邮件。

所以,

P(y = 1/num_attachements=0; some attributes)
and so on!!

这有意义吗?

【问题讨论】:

  • 非常不清楚的问题。指定此任务的应用程序,对字数k 的影响以及其他参数theta 的影响。也没有“传统分类”之类的东西。您很可能对基于概率论的分类器(例如朴素贝叶斯)感兴趣,它可以很容易地与其他概率论方法结合使用。
  • @ffriend:请看一下编辑谢谢让我知道,因为它仍然不清楚

标签: statistics machine-learning classification prediction


【解决方案1】:

通常附件数量只是另一个属性,因此您的概率与

相同
P(y = 1 | all attributes)

但是,如果您对附件有一些特殊处理(例如,其他属性是数字,附件是布尔值),您可以单独计算它们,然后组合为:

P(C|A, B) = P(C|A) * P(C|B) / P(C)

其中C 代表事件y = 1A - 代表附件,B 代表其他属性。

请参阅this paper 了解几个 Nave Bayes 分类器的描述。

【讨论】:

  • 你的公式对我来说毫无意义。你有P(y = 1 | A, B) = 1/Z * P(y = 1, A, B) = 1/Z * P(y = 1) * P(A, B | y = 1),其中Z = P(A, B)。然后,朴素贝叶斯模型假设AB 是独立的,知道y = 1。所以你会得到P(y = 1 | A, B) = 1/Z * P(y = 1) * P(A | y = 1) * P(B | y = 1)
  • @Edouard:实际上你是对的——我对这种情况做了标准但不合理的假设,即P(y = 1) 等于P(y = 0)(即所有类的概率都是相等的)。我更新了我的答案以考虑到这个假设,并且仍然使用概率P(C|A)P(C|B),以防它们是单独计算的。您的最后一个公式是等效的,并且是计算相同事​​物的另一种方法 - 您可以通过将贝叶斯规则应用于您的 P(A|C)P(B|C) 来获得我的公式。
【解决方案2】:

使用朴素的 Baisean 分类器。您可以很快自己编写代码或使用/查看 nltk 库。

【讨论】:

    猜你喜欢
    • 2018-09-05
    • 1970-01-01
    • 1970-01-01
    • 2011-08-01
    • 2016-10-09
    • 2020-05-04
    • 2018-03-05
    • 2023-04-04
    • 2021-04-14
    相关资源
    最近更新 更多