【发布时间】:2011-07-19 19:03:44
【问题描述】:
我有一组来自电子邮件语料库的 500 个最常出现的 uni-gram。我一直在使用 c5.0 根据测试电子邮件中每个单词 any 的出现/不存在来对电子邮件进行分类。
现在我需要计算特征集中术语的困惑度,并使用它对电子邮件进行分类。我想知道有没有人在语言建模方面有任何经验,并且知道我将如何计算模型的困惑度,任何帮助都会很棒!
我应该补充一点,我知道可以自动为我执行此操作的工具,例如 SRILM/CMU-LMtoolkit,但我宁愿自己从头开始将其作为我最后一年项目的一部分!我只需要关于如何开始的提示......也许是“使用困惑计算和分类的白痴指南”的链接!!
非常感谢!!
【问题讨论】:
-
OT:我自己的困惑刚刚超出了阅读问题的范围。有一些东西要读:)
-
哈哈,抱歉有点长!但我认为所有这些都需要说出来......我很想看看是否有人能简单地解释一下!
标签: java perl email classification