【问题标题】:Index 400 billion documents in solr 6.3在 solr 6.3 中索引 4000 亿个文档
【发布时间】:2017-01-25 08:18:25
【问题描述】:

我必须为 solr 6.3 索引大约 4000 亿个文档。我正在使用pysolr 在索引之前解析我的 csv 数据。如何加快索引速度。为了将文档索引到 solr,它使用了 add 方法,默认情况下具有以下语法

add(self, docs, boost=None, fieldUpdates=None, commit=True, softCommit=False, commitWithin=None, waitFlush=None, waitSearcher=None, overwrite=None, handler='update')

一个基本选项是我应该将 commit 和 softcommit 设置为 false 以进行快速索引。方法对吗?

执行快速索引的任何其他选项?

【问题讨论】:

标签: solr lucene pysolr


【解决方案1】:

看看你是否单步提交,这将是非常昂贵的内存。所以更好的选择是分批提交,所以我建议保留 count 变量

if(count == 10000)
{
perform solr commit operation
}

另外,让您的索引脚本多线程以快速完成这些批处理。

【讨论】:

    猜你喜欢
    • 2023-03-10
    • 2017-03-05
    • 2011-02-17
    • 1970-01-01
    • 2019-03-11
    • 1970-01-01
    • 2011-05-27
    • 2012-08-23
    • 2019-02-21
    相关资源
    最近更新 更多