【发布时间】:2014-08-19 21:57:39
【问题描述】:
请告诉我如何克服 IDF 中的负权重问题。谁能举个小例子?
【问题讨论】:
-
负权重?这应该怎么发生?
-
@qqilihq IDF 在将其用于出现在超过一半的语料库文档中的术语时显示出潜在的主要缺点。这些词条的 IDF 为负数,因此对于任何两个几乎相同的文档,一个包含该词条,一个不包含该词条,后者可能会得到更大的分数。这意味着出现在一半以上语料库中的术语将对最终文档分数产生负面影响。
标签: search-engine information-retrieval