朴素贝叶斯示例中的特征独立性？答案

【问题标题】：Feature independence in Naive Bayes example?朴素贝叶斯示例中的特征独立性？
【发布时间】：2015-03-20 17:37:38
【问题描述】：

“朴素贝叶斯的另一个系统性问题是假设特征是独立的。因此，即使单词是依赖的，每个单词都有贡献单独的证据。因此幅度具有强词依赖性的类的权重大于具有弱单词依赖性的类。为了防止具有更多依赖关系的类占主导地位，我们将分类权重归一化。”（Reference）

这到底是什么意思？有什么例子可以更好地解释它吗？

【问题讨论】：

你引用了整段。究竟是什么不清楚？

标签： machine-learning nlp

【解决方案1】：

朴素贝叶斯分类器会相互独立地考虑所有特征。基本上，这意味着特征组合的处理方式与每个特征单独出现的方式相同。

E. G。考虑三个句子

“纽约是一个拥挤的城市。”
“新车！我们提供最便宜的新车！”
“新的‘猪肉屠宰场’酒吧今天在约克开业。”

朴素贝叶斯分类器最终可能会将标签“纽约”分配给所有这些句子。这会发生，因为它会独立地观察“New”和“York”这两个词。从分类器的角度来看，第一个句子包含两个表示标签“New York”的词（即“New”和“York”），第二个也是（“New”和后来的“new”）和第三个（ “新”和后来的“约克”）。它不关心第二句缺少“York”这个词，因为“new”两次弥补了这一点（实际上可能不是，因为“new”会出现在很多与纽约无关的文件中，但是对于这个例子，我们只是假设两个词的权重相等）。分类器也不会关心第三句中出现的距离较远的词。

朴素贝叶斯也可以表示为图形模型，如图所示 (source)。然后您可以将 y 视为类别“New York”，将 x1...x4 视为可观察特征“New”、“York”、“Big”、“Apple”。请注意，存在从 y 到 x1...x4 的连接，但不是在每个 x 之间。

您发布的段落的第二部分似乎是关于体重标准化的。基本上，如果您有关于“东京”和“洛杉矶”类别的文档，并且您假设这些城市的名称是指向相应类别具有相同权重的观察值，那么文档只包含单词

东京洛杉矶

将被您的朴素贝叶斯分类器分类为属于“洛杉矶”类别。这是因为有两个观察结果支持该类别（“洛杉矶”、“天使”），但只有一个支持东京（“东京”）。因此，您将需要某种方法来标准化您的权重以适应该问题。

【讨论】：

might end up assigning the label "New York" to all of these sentences第二句没有York
是的，但如果你只计算New，只有在观察到York 时，那么New 的功能将取决于York。在朴素贝叶斯中，所有特征都被视为有条件地相互独立。为此P("New"|<category:New York>) = P("New"|<category:New York>, "York")。因此，即使单词York 从未出现在其中，您也可以将文档分类为about New York。（类似地，可能还有数百个表示New York 的词也不必出现在文档中。）