【发布时间】:2012-01-11 14:36:43
【问题描述】:
现在,我们使用 Solr 作为全文索引,文档的所有字段都被索引但不存储。 有几百万个文档,索引大小为 50 GB。平均查询时间约为 100 毫秒。
要使用突出显示等功能,我们正在考虑:附加存储文本。但是,这可能会使索引文件的大小增加一倍。
我知道索引大小和查询时间之间绝对没有(线性)关系。将文档提高 10 倍时,查询时间几乎没有差异。
但是,系统 (Solr/Lucene/Linux/...) 必须处理更多信息 - 索引文件(例如)基于更多的 I 节点,等等。
所以我敢肯定,与索引大小相关的查询时间会产生影响。 (但是:这很明显吗?)
第一个: 你觉得,我是对的吗? 对于有/没有存储文本的索引大小和搜索速度,您有任何经验吗? 通过存储文档来炸毁索引是否明智合理?
第二: 你知道 Solr/Lucene 是如何处理存储文本的吗?也许在单独的文件中? (这样对于不需要存储文本的简单搜索没有影响!?)
谢谢。
【问题讨论】:
-
请问我的回答是否有用?您还在寻找其他东西吗?
-
我写这个问题是为了了解索引大小对搜索速度的影响——可能来自有实践经验的人。所以“我不认为”并不能帮助我。你到 lucene 文件文档的链接很有用。
-
嗯,我确实有实践经验,而且我在存储字段时从来没有遇到过性能问题,而我也遇到过大小问题。此外,该链接证明存储字段不会降低性能。这不能回答你的问题吗?
标签: performance solr lucene