lucene 索引匹配答案

【问题标题】：lucene index matchlucene 索引匹配
【发布时间】：2012-06-27 05:40:24
【问题描述】：

我正在尝试使用 Lucene 进行 undup 或 dedup 匹配。本质上，我有一个文件，其中包含要根据某些字段（模糊搜索）进行分组的记录，并使用匹配键返回结果，该匹配键告诉我该文件中的哪些记录相互匹配。

这可能吗？

【问题讨论】：

你试过什么？你是如何使用 lucene 的（有很多不同语言/框架的版本）？帮助我们帮助您。
我正在使用 Java Lucene 3.6。我可以在索引后遍历输入文件并在我感兴趣的字段上搜索索引。这似乎效率低下，因此我想知道是否有一种有效的方法来匹配索引中的文档。

【解决方案1】：

这是可以做到的（如果我理解正确的话）。您将索引您的术语/记录将在一次通过中进行搜索。在第二遍中，您将搜索每个术语并记录结果。

【讨论】：

【解决方案2】：

在预处理文档时，您可以生成聚合这些字段的哈希，并将其存储（如NOT_ANALYZED），这样您只需按一个已知大小的字段进行搜索，请查看@987654321 @。这是我通常对文件内容的重复检测所做的（因为内容可能对于单个查询来说太大了）。

如果您要创建更复杂的查询，请尝试使用CachingWrapperFilter，这样后续对您的重复数据删除算法的调用会更快。

【讨论】：