【问题标题】:Difference between two files in LuceneLucene 中两个文件的区别
【发布时间】:2012-02-29 12:29:27
【问题描述】:

在 C# 中的 Lucene 中,我试图找出索引是否包含重复文件或几乎相同,以查看是否需要将其替换为新文件。为此,我想出了一种方法,可能是使用 MoreLikeThis 类,然后获取相关文档的列表。然后比较这些相关文档,看看它们是否与我添加的文档相匹配——比如 90% 的匹配。然后程序会询问用户这两个是否重复以及保留哪一个。

  1. 这可以使用 Lucene 完成吗? ...这是最好的方法吗?
  2. 如果无法做到这一点,使用Levenshtein Distance Algorithm 是比较两个文件以查看它们是否具有相似匹配项的最有效方法吗?

谢谢!

【问题讨论】:

    标签: c# lucene indexing lucene.net


    【解决方案1】:

    为了将文档与 lucene 进行比较,您还可以使用 TermFreqVector 并将 TermVector 保存在索引中。你也可以用这个向量计算狄利克雷相似度。

    【讨论】:

      猜你喜欢
      • 2019-02-01
      • 2023-01-23
      • 1970-01-01
      • 2013-04-30
      • 2012-09-01
      • 1970-01-01
      • 2018-04-26
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多