【问题标题】:How to scale SOLR indexing without using DIH?如何在不使用 DIH 的情况下扩展 SOLR 索引?
【发布时间】:2015-05-18 05:25:16
【问题描述】:

我的 SOLR 中有大约 2000 万 个文档。我在 SOLR 中使用 DIH 来索引 delta 更新。为最后一小时编制增量导入索引大约需要 2-3 小时完全导入大约需要 5-6 小时 完成。除了DIH,还有什么方法可以加快这个过程吗??

【问题讨论】:

  • 是索引需要时间 - 还是从数据库中检索内容?如果后端必须多次扫描整个表,则错误或丢失的索引可能会使任何大型导入作业变慢。增量导入中有多少新文档?
  • 新文档将低于 500。但现有文档的更新量会很大。我还使用连接从大约 14-15 个表中导入数据。

标签: php apache solr dih


【解决方案1】:

你可以想到

  1. 跨多个服务器分发索引
  2. 在多台服务器上复制索引

分发索引:将索引划分为部分(碎片),每个部分都在单独的机器上运行。 Solr 然后将搜索划分为子搜索,这些子搜索在各个分片上运行,共同报告结果。通过这种方式,您将在针对非常大的索引进行查询时体验到更快的性能。

这是在 solr 上缩放的好读物

http://www.hathitrust.org/blogs/large-scale-search/scaling-large-scale-search-from-500000-volumes-5-million-volumes-and-beyond

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-02-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-11-29
    • 1970-01-01
    相关资源
    最近更新 更多