【问题标题】:Calculating the perplexity of a language model for email classification计算用于电子邮件分类的语言模型的困惑度
【发布时间】:2011-07-19 19:03:44
【问题描述】:

我有一组来自电子邮件语料库的 500 个最常出现的 uni-gram。我一直在使用 c5.0 根据测试电子邮件中每个单词 any 的出现/不存在来对电子邮件进行分类。

现在我需要计算特征集中术语的困惑度,并使用它对电子邮件进行分类。我想知道有没有人在语言建模方面有任何经验,并且知道我将如何计算模型的困惑度,任何帮助都会很棒!

我应该补充一点,我知道可以自动为我执行此操作的工具,例如 SRILM/CMU-LMtoolkit,但我宁愿自己从头开始将其作为我最后一年项目的一部分!我只需要关于如何开始的提示......也许是“使用困惑计算和分类的白痴指南”的链接!!

非常感谢!!

【问题讨论】:

  • OT:我自己的困惑刚刚超出了阅读问题的范围。有一些东西要读:)
  • 哈哈,抱歉有点长!但我认为所有这些都需要说出来......我很想看看是否有人能简单地解释一下!

标签: java perl email classification


【解决方案1】:

这个CMU course exercise 似乎有你想要的。是的,他们建议您使用 SRILM,但请参阅“语言模型”部分——它指向一本书的章节、来自 Microsoft Research 的教程以及该教程的演示文稿。

希望这会有所帮助!

【讨论】:

  • 谢谢一百万,那本书的章节是完美的。在过去几天的谷歌搜索中,我已经看到了这个讲座,但这本书给出了一个很好的例子。再次感谢!!
  • 链接已损坏。你提到的书是口语处理?
【解决方案2】:

Joshua Goodman(MS Research 的教程)的“State of the Art Language Modeling”链接现在是: http://research.microsoft.com/apps/pubs/default.aspx?id=68595

【讨论】:

    【解决方案3】:

    我知道你问这个问题已经有一段时间了,但如果你仍然对更广泛的困惑感兴趣(我的意思是自然语言处理、语音识别、词性标记和命名实体识别等),那么我建议你参加目前在 Coursera 上运行的这门课程。

    这是网址https://www.coursera.org/course/nlangp

    【讨论】:

      猜你喜欢
      • 2016-09-02
      • 1970-01-01
      • 2017-12-05
      • 2015-02-26
      • 2013-01-12
      • 2021-01-06
      • 2020-03-31
      • 2012-03-30
      • 1970-01-01
      相关资源
      最近更新 更多