【问题标题】:Tf-Idf calculation for two corpuses两个语料库的 Tf-Idf 计算
【发布时间】:2017-05-30 16:26:04
【问题描述】:

我有两个语料库(语料库 1 和语料库 2),语料库 1 中的文档包含来自语料库 2 的抄袭句子。我正在使用 Tf-Idf 方法来测量语料库 1 中的文档与语料库 2 中的文档之间的相似性。

已经为语料库 2 中的术语建立了倒排索引,如下所示:

简而言之,对于每两个句子的比较,我构建了两个 Tf-Idf 向量,然后我使用余弦相似度来衡量相似度。

我的问题是,在与语料库 1 的句子相关的向量的构建过程中,我使用语料库 2 索引通过汇总与 X 术语相关的文档来获取 Idf,这是正确的方法吗!?因为语料库 1 中的某些术语在语料库 2 中不可用,并且 Tf-idf 函数将为这些术语返回 0!或者我必须为语料库 1 建立另一个索引(我认为这将消除 Tf-idf 的力量)。

【问题讨论】:

    标签: java tf-idf cosine-similarity inverted-index


    【解决方案1】:

    我们必须索引目标语料库,我们需要完成我们的工作,例如: 如果我们有 2 个语料库,一个是原创的,一个是抄袭的。 我们必须索引原始的,因为我们需要搜索。

    【讨论】:

      猜你喜欢
      • 2014-04-21
      • 2019-04-14
      • 2015-12-12
      • 2019-10-18
      • 1970-01-01
      • 2012-04-23
      • 2015-04-17
      • 2017-12-04
      • 2020-05-11
      相关资源
      最近更新 更多