通过去除冗余优化 solr 索引答案

【问题标题】：Optimization of solr indexing by removing redundancy通过去除冗余优化 solr 索引
【发布时间】：2015-09-21 11:07:18
【问题描述】：

我正在处理一个生产场景，目前数据较少，现在将达到数百万。
场景：我有一个包含多个学生数据（student_id、rol 等）的文件夹。

现在，一个学生的数据可以在不同的文件夹中（是的，这是我们的要求）。在当前系统中，学生的所有详细信息都被索引在每个文件夹下。由于数据非常少，因此重复性现在不会造成问题。但是，如果我们继续相同的过程，那么同一个学生的数据将被多次索引（取决于包含该学生数据的文件夹数量），从而增加冗余和索引大小。

我想最小化索引大小并且不想要数据冗余。请提供一个更简单的解决方案以在 Solr 中完成此任务。

【问题讨论】：

标签： solr lucene solr4

【解决方案1】：

只要定义了 uniqueKey 字段，任何与前一个文档具有相同键的文档都将覆盖现有文档，并且您将避免索引中出现重复。

如果您没有唯一的值来识别您的学生，那么您将很难合并任何东西（在 Solr 之外也是如此），并且您可能需要编写一些自定义代码来在外部适当地合并条目Solr.

【讨论】：

我想我无法让你理解我的场景。在当前系统中，学生的所有详细信息都在每个文件夹下进行索引。我的意思是，folder1 有 student1 数据（s_id、rol 等），同样的 student1 数据也可能存在于 folder2 等等。现在我想问，当数据是同一个学生时，为什么每次都要索引，在不同的文件夹下？有什么方法可以索引一次并在其他文件夹中再次使用它。请注意，我们在文件夹中有 student_data