【问题标题】:Compute trigram probability from bigrams probabilities从二元概率计算三元概率
【发布时间】:2013-12-15 04:21:15
【问题描述】:

给定文本中的单词bigram probabilities,如何计算trigram probabilities

例如,如果我们知道P(dog cat) = 0.3P(cat mouse) = 0.2

我们如何找到P(dog cat mouse)的概率?

谢谢!

【问题讨论】:

  • 您为什么要这样做?它不太可能是真实三元概率的良好估计。 dog cat 之后甚至可能永远不会有第三个词,只是无法从基于概率的“给定两个词,这种组合出现 X 次 Z 次”中分辨出来
  • 我知道这不是获得三元组概率的好方法,但是有没有办法估计给定 2 个二元组的概率?

标签: artificial-intelligence probability n-gram


【解决方案1】:

在下文中,我将三元组视为三个随机变量A,B,C。所以dog cat horse 将是A=dog, B=cat, C=horse

使用链式法则:P(A,B,C) = P(A,B) * P(C|A,B)。如果你想保持准确,现在你会卡住。

你可以做的是假设C独立于A给定B。然后它认为P(C|A,B) = P(C|B)。还有P(C|B) = P(C,B) / P(B),你应该能够从你的三元组频率中计算出来。请注意,在您的情况下,P(C|B) 实际上应该是C 跟随B 的概率,所以它是BC 的概率除以B* 的概率。

所以总结一下,当使用条件独立假设时:

P(ABC) = P(AB) * P(BC) / P(B*)

要计算P(B*),您必须对以B 开头的所有三元组的概率求和。

【讨论】:

  • 感谢您的回答。我将标记为最佳答案,我只是有一个问题。所以它是 P(B,C)/P(B),对吧?但是为什么那里没有使用 A 的概率呢?
  • 因为它只适用于P(C|B)。全部添加到答案中。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-11-18
  • 1970-01-01
  • 2021-05-28
  • 1970-01-01
相关资源
最近更新 更多