两个语料库的 Tf-Idf 计算答案

【问题标题】：Tf-Idf calculation for two corpuses两个语料库的 Tf-Idf 计算
【发布时间】：2017-05-30 16:26:04
【问题描述】：

我有两个语料库（语料库 1 和语料库 2），语料库 1 中的文档包含来自语料库 2 的抄袭句子。我正在使用 Tf-Idf 方法来测量语料库 1 中的文档与语料库 2 中的文档之间的相似性。

已经为语料库 2 中的术语建立了倒排索引，如下所示：

简而言之，对于每两个句子的比较，我构建了两个 Tf-Idf 向量，然后我使用余弦相似度来衡量相似度。

我的问题是，在与语料库 1 的句子相关的向量的构建过程中，我使用语料库 2 索引通过汇总与 X 术语相关的文档来获取 Idf，这是正确的方法吗！？因为语料库 1 中的某些术语在语料库 2 中不可用，并且 Tf-idf 函数将为这些术语返回 0！或者我必须为语料库 1 建立另一个索引（我认为这将消除 Tf-idf 的力量）。

【问题讨论】：

标签： java tf-idf cosine-similarity inverted-index

【解决方案1】：

我们必须索引目标语料库，我们需要完成我们的工作，例如：如果我们有 2 个语料库，一个是原创的，一个是抄袭的。我们必须索引原始的，因为我们需要搜索。

【讨论】：