【发布时间】:2010-12-30 08:42:00
【问题描述】:
感谢本网站上的各位在 TF/IDF 中提供的帮助。它帮助我在 java 中创建 tf-idf 函数。我做了 tf 但我有一个问题。正如他们在 wiki 上写的那样,IDF 可以计算出有多少文档具有该术语。但我很困惑。
例如,这里是字符串“JosAH is great. JoshAH Rocks”,因此 TF 为 2/5,对于 IDF,有 2 个文档,每个文档都包含 JoshAH 术语。所以 我们将只查看该术语是否出现在其他文档中,或者我们将查看它在其他文档中出现的次数?
【问题讨论】:
标签: tf-idf