【问题标题】:Feature independence in Naive Bayes example?朴素贝叶斯示例中的特征独立性?
【发布时间】:2015-03-20 17:37:38
【问题描述】:

“朴素贝叶斯的另一个系统性问题是 假设特征是独立的。因此, 即使单词是依赖的,每个单词都有贡献 单独的证据。因此幅度 具有强词依赖性的类的权重 大于具有弱单词依赖性的类。 为了防止具有更多依赖关系的类占主导地位, 我们将分类权重归一化。”(Reference

这到底是什么意思?有什么例子可以更好地解释它吗?

【问题讨论】:

  • 你引用了整段。究竟是什么不清楚?

标签: machine-learning nlp


【解决方案1】:

朴素贝叶斯分类器会相互独立地考虑所有特征。基本上,这意味着特征组合的处理方式与每个特征单独出现的方式相同。

E. G。考虑三个句子

  1. “纽约是一个拥挤的城市。”
  2. “新车!我们提供最便宜的新车!”
  3. “新的‘猪肉屠宰场’酒吧今天在约克开业。”

朴素贝叶斯分类器最终可能会将标签“纽约”分配给所有这些句子。这会发生,因为它会独立地观察“New”和“York”这两个词。从分类器的角度来看,第一个句子包含两个表示标签“New York”的词(即“New”和“York”),第二个也是(“New”和后来的“new”)和第三个( “新”和后来的“约克”)。它不关心第二句缺少“York”这个词,因为“new”两次弥补了这一点(实际上可能不是,因为“new”会出现在很多与纽约无关的文件中,但是对于这个例子,我们只是假设两个词的权重相等)。分类器也不会关心第三句中出现的距离较远的词。

朴素贝叶斯也可以表示为图形模型,如图所示 (source)。然后您可以将 y 视为类别“New York”,将 x1...x4 视为可观察特征“New”、“York”、“Big”、“Apple”。请注意,存在从 y 到 x1...x4 的连接,但不是在每个 x 之间。

您发布的段落的第二部分似乎是关于体重标准化的。基本上,如果您有关于“东京”和“洛杉矶”类别的文档,并且您假设这些城市的名称是指向相应类别具有相同权重的观察值,那么文档只包含单词

东京洛杉矶

将被您的朴素贝叶斯分类器分类为属于“洛杉矶”类别。这是因为有两个观察结果支持该类别(“洛杉矶”、“天使”),但只有一个支持东京(“东京”)。因此,您将需要某种方法来标准化您的权重以适应该问题。

【讨论】:

  • might end up assigning the label "New York" to all of these sentences第二句没有York
  • 是的,但如果你只计算New,只有在观察到York 时,那么New 的功能将取决于York。在朴素贝叶斯中,所有特征都被视为有条件地相互独立。为此P("New"|<category:New York>) = P("New"|<category:New York>, "York")。因此,即使单词York 从未出现在其中,您也可以将文档分类为about New York。 (类似地,可能还有数百个表示New York 的词也不必出现在文档中。)
猜你喜欢
  • 2017-07-07
  • 2015-01-24
  • 2019-01-28
  • 2018-11-04
  • 2020-11-06
  • 2014-01-03
  • 2019-06-04
  • 2012-02-21
  • 2011-12-28
相关资源
最近更新 更多