【问题标题】:lucene index matchlucene 索引匹配
【发布时间】:2012-06-27 05:40:24
【问题描述】:

我正在尝试使用 Lucene 进行 undup 或 dedup 匹配。本质上,我有一个文件,其中包含要根据某些字段(模糊搜索)进行分组的记录,并使用匹配键返回结果,该匹配键告诉我该文件中的哪些记录相互匹配。

这可能吗?

【问题讨论】:

  • 你试过什么?你是如何使用 lucene 的(有很多不同语言/框架的版本)?帮助我们帮助您。
  • 我正在使用 Java Lucene 3.6。我可以在索引后遍历输入文件并在我感兴趣的字段上搜索索引。这似乎效率低下,因此我想知道是否有一种有效的方法来匹配索引中的文档。

标签: lucene match


【解决方案1】:

这是可以做到的(如果我理解正确的话)。您将索引您的术语/记录将在一次通过中进行搜索。在第二遍中,您将搜索每个术语并记录结果。

【讨论】:

    【解决方案2】:

    在预处理文档时,您可以生成聚合这些字段的哈希,并将其存储(如NOT_ANALYZED),这样您只需按一个已知大小的字段进行搜索,请查看@987654321 @。这是我通常对文件内容的重复检测所做的(因为内容可能对于单个查询来说太大了)。

    如果您要创建更复杂的查询,请尝试使用CachingWrapperFilter,这样后续对您的重复数据删除算法的调用会更快。

    【讨论】:

      猜你喜欢
      • 2011-12-09
      • 1970-01-01
      • 1970-01-01
      • 2012-10-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多