将文档中的文本频率与语料库中的频率进行比较答案

【问题标题】：Comparing text frequencies in a document to frequency in a corpus将文档中的文本频率与语料库中的频率进行比较
【发布时间】：2011-05-21 08:02:59
【问题描述】：

我想分析文档中的字母、二元组、单词等项目，并将它们在我的文档中的频率与它们在大型文档语料库中的频率进行比较。

这个想法是，诸如“if”、“and”、“the”之类的词在所有文档中都很常见，但有些词在本文档中会比语料库中的典型词更常见。

这一定很标准。这叫什么？这样做很明显，我总是在我的文档中遇到新词的问题，但在语料库评级中却没有无限重要。这是如何处理的？

【问题讨论】：

您能否详细说明您需要哪些文本指标？
@matcheek：我能找到的大多数文档都是关于查找与搜索一个或多个单词最匹配的文档，但我最感兴趣的是找到“最有趣”的单词/文档中的短语/ngrams。类似于亚马逊的“统计上不可能的短语”。

【解决方案1】：

您很可能已经检查过tf-idf 或来自okapi_bm25 family 的其他一些指标。

您也可以查看natural language processing toolkit nltk 以获得一些现成的解决方案

更新：对于新词，应进行平滑处理：Good-Turing、拉普拉斯等

【讨论】：

【解决方案2】：

它属于线性分类器，其中朴素贝叶斯分类器是最著名的形式（由于其在解决现实世界分类问题方面非常简单和稳健）。

【讨论】：