假设您已使用朴素贝叶斯分类器进行分类,我将回答这个问题。
朴素贝叶斯分类器是一种相当简单的算法,已成功应用于垃圾邮件检测领域。
朴素贝叶斯分类器基于条件概率并利用以下等式:
P(a|b) = P(b|a) * P(a) / P(b)
假设朴素贝叶斯分类器可以将一段文本(电子邮件)分为两类,垃圾邮件和非垃圾邮件。
上面提到的应用于垃圾邮件检测任务的方程可以翻译如下:
P(类|文本)=P(文本|类)* P(类)/P(文本)
由于文本是由单词组成的,它可以表示为单词的组合。文本 -> w1, w2, ....., wn
这意味着,
P (class | w1, w2, ..., wn) = P (w1, w2, ..., wn | class) * P (class)
/p (w1, w2, ..., wn)
由于朴素贝叶斯分类器做出朴素假设,即单词在条件下相互独立,因此转换为:
P (class | w1, w2, ... , wn) = P (w1 | class) * P (w2 | class) * ... *
P (wn | 类) * P (类)
对于所有类(在我们的示例中为“垃圾邮件”和“非垃圾邮件”)。
我删除了分母,因为它对所有概率都是通用的。
其中,P(类别)是给定类别(“垃圾邮件”和“非垃圾邮件”)的概率。假设您有 100 个训练示例,其中 60 个是垃圾邮件,40 个不是垃圾邮件,那么“垃圾邮件”和“非垃圾邮件”的类别概率分别为 0.6 和 0.4。
P (w | class) 是给定类别的单词的概率。在朴素贝叶斯分类器中,您计算给定类中每个单词的概率。
让我们考虑一下你给出的例子,
点击这里免费获得 10000 美元。
朴素贝叶斯分类器已经计算了在给定类别(垃圾邮件而非垃圾邮件)中您的句子中出现“Get”、“dollar”、“free”、“by”、“click”这些词的概率。
如果句子被归类为垃圾邮件,那么您可以通过找出它们在垃圾邮件和非垃圾邮件类别中的概率来找到对句子的垃圾邮件贡献最大的单词。
Here 你可以找到一个简单的朴素贝叶斯实现应用于电子邮件中的垃圾邮件检测任务。