【发布时间】:2013-05-31 10:03:47
【问题描述】:
我已经成功评估了给定语料库的tf-idf function。如何找到每个文档的停用词和最佳词?我知道给定单词和文档的低 tf-idf 意味着它不是选择该文档的好词。
【问题讨论】:
-
i /think/ tf-idf 将边缘化非常常见的术语(例如停用词),即使您没有将它们标记为停用词。至少这是我的理解。 SOLR 已经支持 i18n,因此它可能有多种语言的停用词列表。
标签: information-retrieval text-mining stop-words tf-idf