【问题标题】:Apache Solr 5 - deduplicating data within a fieldApache Solr 5 - 删除字段中的重复数据
【发布时间】:2015-04-08 02:05:03
【问题描述】:

这是我的问题(请原谅冗长): 我有数以百万计的文档,而且它们都是独一无二的。

但是,所有文档都包含一个“描述”字段,并且该字段包含的数据在所有 1000 万个文档中的文本中只有几个不同的变体。这个字段是-400-800字左右。

消除“描述”字段中重复数据的最合适方法是什么?

让我详细说明。这是一个经过简化的示例架构:

Doc_id           <-- this is unique
Title                <-- always unique as well
Description    <-- contains mostly dupe data 

我搜索标题和描述,但只返回标题本身。

我对 Solr 还很陌生,但无法找到有关如何处理此类情况的任何信息。万一这很重要,我在 Ubuntu 上运行 Solr 5。

感谢您的帮助!

【问题讨论】:

  • 你对所有三个字段都设置了 indexed=true
  • @swaraj -yes,但这与什么有什么关系?

标签: apache solr deduplication


【解决方案1】:

我会尝试提供一些策略来解决您的问题。

  1. 您是说搜索标题和描述,这意味着您应该在 schema.xml 中将这些字段设置为 indexed=true。仅返回标题,这意味着只需将标题设置为stored=true,描述应设置为stored=false。有关存储与索引的更多信息,请参阅此帖子:Solr index vs stored

  2. 您可以尝试的另一个有用选项是字段选项压缩。如果您需要存储字段,可以对某些字段使用 gzip 压缩,例如 TextField 和 StrField,请参阅:https://wiki.apache.org/solr/SchemaXml 了解更多信息。

  3. 最后,Solr 支持重复数据删除,请参阅:https://wiki.apache.org/solr/Deduplication。我没有尝试此功能,但从它的声音来看,您可以防止(几乎)重复的文档被索引或标记重复。也许它的目标是“允许搜索结果中的重复折叠以及添加文档时的重复数据删除”。是你要找的吗?

【讨论】:

    猜你喜欢
    • 2016-02-14
    • 2012-10-29
    • 2016-08-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多