【发布时间】:2017-05-30 16:26:04
【问题描述】:
我有两个语料库(语料库 1 和语料库 2),语料库 1 中的文档包含来自语料库 2 的抄袭句子。我正在使用 Tf-Idf 方法来测量语料库 1 中的文档与语料库 2 中的文档之间的相似性。
简而言之,对于每两个句子的比较,我构建了两个 Tf-Idf 向量,然后我使用余弦相似度来衡量相似度。
我的问题是,在与语料库 1 的句子相关的向量的构建过程中,我使用语料库 2 索引通过汇总与 X 术语相关的文档来获取 Idf,这是正确的方法吗!?因为语料库 1 中的某些术语在语料库 2 中不可用,并且 Tf-idf 函数将为这些术语返回 0!或者我必须为语料库 1 建立另一个索引(我认为这将消除 Tf-idf 的力量)。
【问题讨论】:
标签: java tf-idf cosine-similarity inverted-index