Apache Solr 5 - 删除字段中的重复数据答案

【问题标题】：Apache Solr 5 - deduplicating data within a fieldApache Solr 5 - 删除字段中的重复数据
【发布时间】：2015-04-08 02:05:03
【问题描述】：

这是我的问题（请原谅冗长）：我有数以百万计的文档，而且它们都是独一无二的。

但是，所有文档都包含一个“描述”字段，并且该字段包含的数据在所有 1000 万个文档中的文本中只有几个不同的变体。这个字段是-400-800字左右。

消除“描述”字段中重复数据的最合适方法是什么？

让我详细说明。这是一个经过简化的示例架构：

Doc_id           <-- this is unique
Title                <-- always unique as well
Description    <-- contains mostly dupe data

我搜索标题和描述，但只返回标题本身。

我对 Solr 还很陌生，但无法找到有关如何处理此类情况的任何信息。万一这很重要，我在 Ubuntu 上运行 Solr 5。

感谢您的帮助！

【问题讨论】：

【解决方案1】：

我会尝试提供一些策略来解决您的问题。

您是说搜索标题和描述，这意味着您应该在 schema.xml 中将这些字段设置为 indexed=true。仅返回标题，这意味着只需将标题设置为stored=true，描述应设置为stored=false。有关存储与索引的更多信息，请参阅此帖子：Solr index vs stored
您可以尝试的另一个有用选项是字段选项压缩。如果您需要存储字段，可以对某些字段使用 gzip 压缩，例如 TextField 和 StrField，请参阅：https://wiki.apache.org/solr/SchemaXml 了解更多信息。
最后，Solr 支持重复数据删除，请参阅：https://wiki.apache.org/solr/Deduplication。我没有尝试此功能，但从它的声音来看，您可以防止（几乎）重复的文档被索引或标记重复。也许它的目标是“允许搜索结果中的重复折叠以及添加文档时的重复数据删除”。是你要找的吗？

【讨论】：