【发布时间】:2012-02-29 12:29:27
【问题描述】:
在 C# 中的 Lucene 中,我试图找出索引是否包含重复文件或几乎相同,以查看是否需要将其替换为新文件。为此,我想出了一种方法,可能是使用 MoreLikeThis 类,然后获取相关文档的列表。然后比较这些相关文档,看看它们是否与我添加的文档相匹配——比如 90% 的匹配。然后程序会询问用户这两个是否重复以及保留哪一个。
- 这可以使用 Lucene 完成吗? ...这是最好的方法吗?
- 如果无法做到这一点,使用Levenshtein Distance Algorithm 是比较两个文件以查看它们是否具有相似匹配项的最有效方法吗?
谢谢!
【问题讨论】:
标签: c# lucene indexing lucene.net