计算用于电子邮件分类的语言模型的困惑度答案

【问题标题】：Calculating the perplexity of a language model for email classification计算用于电子邮件分类的语言模型的困惑度
【发布时间】：2011-07-19 19:03:44
【问题描述】：

我有一组来自电子邮件语料库的 500 个最常出现的 uni-gram。我一直在使用 c5.0 根据测试电子邮件中每个单词 any 的出现/不存在来对电子邮件进行分类。

现在我需要计算特征集中术语的困惑度，并使用它对电子邮件进行分类。我想知道有没有人在语言建模方面有任何经验，并且知道我将如何计算模型的困惑度，任何帮助都会很棒！

我应该补充一点，我知道可以自动为我执行此操作的工具，例如 SRILM/CMU-LMtoolkit，但我宁愿自己从头开始将其作为我最后一年项目的一部分！我只需要关于如何开始的提示......也许是“使用困惑计算和分类的白痴指南”的链接！！

非常感谢！！

【问题讨论】：

【解决方案1】：

这个CMU course exercise 似乎有你想要的。是的，他们建议您使用 SRILM，但请参阅“语言模型”部分——它指向一本书的章节、来自 Microsoft Research 的教程以及该教程的演示文稿。

希望这会有所帮助！

【讨论】：

【解决方案2】：

Joshua Goodman（MS Research 的教程）的“State of the Art Language Modeling”链接现在是： http://research.microsoft.com/apps/pubs/default.aspx?id=68595

【讨论】：

【解决方案3】：

我知道你问这个问题已经有一段时间了，但如果你仍然对更广泛的困惑感兴趣（我的意思是自然语言处理、语音识别、词性标记和命名实体识别等），那么我建议你参加目前在 Coursera 上运行的这门课程。

【讨论】：