【发布时间】:2015-09-21 11:07:18
【问题描述】:
我正在处理一个生产场景,目前数据较少,现在将达到数百万。
场景:我有一个包含多个学生数据(student_id、rol 等)的文件夹。
现在,一个学生的数据可以在不同的文件夹中(是的,这是我们的要求)。在当前系统中,学生的所有详细信息都被索引在每个文件夹下。由于数据非常少,因此重复性现在不会造成问题。但是,如果我们继续相同的过程,那么同一个学生的数据将被多次索引(取决于包含该学生数据的文件夹数量),从而增加冗余和索引大小。
我想最小化索引大小并且不想要数据冗余。请提供一个更简单的解决方案以在 Solr 中完成此任务。
【问题讨论】: