如何使用 MLE 训练 n-gram 模型？答案

【问题标题】：How MLE is used to train a n-gram model?如何使用 MLE 训练 n-gram 模型？
【发布时间】：2016-07-22 10:13:31
【问题描述】：

我学习了很多关于使用 MLE 训练 n-gram 模型的文档，但是当我注意到所有的实现只是通过计算 n-gram 来计算条件概率时，我的问题是与 MLE 有什么关系？

【问题讨论】：

【解决方案1】：

直观地说，您必须计算世界上所有文本中的所有 n-gram 来计算它们的概率。由于这是非常不切实际的，MLE 提供了一种通过在给定语料库中计数来估计这些 n-gram 概率的方法。

例如，如果您需要单词 x 之后单词 y 的二元概率，则将它们的出现次数计算为一对，。然后你必须通过将它除以以 x 开头的所有二元组的总和来标准化这个计数（即：x 后面跟着每个可能的单词），所以MLE 估计值最终介于 0 和 1 之间。

因此，这个二元概率可以通过以下表达式来估计：

请注意，此表达式可以进一步简化，因为以 x 开头的所有二元组计数的总和必须与 x 本身的一元组计数相加：

【讨论】：