【发布时间】:2015-04-08 02:05:03
【问题描述】:
这是我的问题(请原谅冗长): 我有数以百万计的文档,而且它们都是独一无二的。
但是,所有文档都包含一个“描述”字段,并且该字段包含的数据在所有 1000 万个文档中的文本中只有几个不同的变体。这个字段是-400-800字左右。
消除“描述”字段中重复数据的最合适方法是什么?
让我详细说明。这是一个经过简化的示例架构:
Doc_id <-- this is unique
Title <-- always unique as well
Description <-- contains mostly dupe data
我搜索标题和描述,但只返回标题本身。
我对 Solr 还很陌生,但无法找到有关如何处理此类情况的任何信息。万一这很重要,我在 Ubuntu 上运行 Solr 5。
感谢您的帮助!
【问题讨论】:
-
你对所有三个字段都设置了 indexed=true
-
@swaraj -yes,但这与什么有什么关系?
标签: apache solr deduplication