【问题标题】:Optimization of solr indexing by removing redundancy通过去除冗余优化 solr 索引
【发布时间】:2015-09-21 11:07:18
【问题描述】:

我正在处理一个生产场景,目前数据较少,现在将达到数百万。
场景:我有一个包含多个学生数据(student_id、rol 等)的文件夹。

现在,一个学生的数据可以在不同的文件夹中(是的,这是我们的要求)。在当前系统中,学生的所有详细信息都被索引在每个文件夹下。由于数据非常少,因此重复性现在不会造成问题。但是,如果我们继续相同的过程,那么同一个学生的数据将被多次索引(取决于包含该学生数据的文件夹数量),从而增加冗余和索引大小。

我想最小化索引大小并且不想要数据冗余。请提供一个更简单的解决方案以在 Solr 中完成此任务。

【问题讨论】:

    标签: solr lucene solr4


    【解决方案1】:

    只要定义了 uniqueKey 字段,任何与前一个文档具有相同键的文档都将覆盖现有文档,并且您将避免索引中出现重复。

    如果您没有唯一的值来识别您的学生,那么您将很难合并任何东西(在 Solr 之外也是如此),并且您可能需要编写一些自定义代码来在外部适当地合并条目Solr.

    【讨论】:

    • 我想我无法让你理解我的场景。在当前系统中,学生的所有详细信息都在每个文件夹下进行索引。我的意思是,folder1 有 student1 数据(s_id、rol 等),同样的 student1 数据也可能存在于 folder2 等等。现在我想问,当数据是同一个学生时,为什么每次都要索引,在不同的文件夹下?有什么方法可以索引一次并在其他文件夹中再次使用它。请注意,我们在文件夹中有 student_data
    猜你喜欢
    • 1970-01-01
    • 2018-01-01
    • 1970-01-01
    • 2016-05-22
    • 2014-07-18
    • 1970-01-01
    • 2011-10-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多