【发布时间】:2011-05-21 08:02:59
【问题描述】:
我想分析文档中的字母、二元组、单词等项目,并将它们在我的文档中的频率与它们在大型文档语料库中的频率进行比较。
这个想法是,诸如“if”、“and”、“the”之类的词在所有文档中都很常见,但有些词在本文档中会比语料库中的典型词更常见。
这一定很标准。这叫什么?这样做很明显,我总是在我的文档中遇到新词的问题,但在语料库评级中却没有无限重要。这是如何处理的?
【问题讨论】:
-
您能否详细说明您需要哪些文本指标?
-
@matcheek:我能找到的大多数文档都是关于查找与搜索一个或多个单词最匹配的文档,但我最感兴趣的是找到“最有趣”的单词/文档中的短语/ngrams。类似于亚马逊的“统计上不可能的短语”。
标签: terminology relevance tf-idf significance