重新索引爬取的数据 Solr 5.4.1

【问题标题】：Reindex crawled data Solr 5.4.1重新索引爬取的数据 Solr 5.4.1
【发布时间】：2016-06-02 15:36:06
【问题描述】：

我有一个 Solr 设置，它正在从网络爬虫获取数据，目前有大约 500 万个文档。整个系统建立在 Hadoop 之上。

最近我为我的 Solr 实现了自动完成功能。现在的问题是，由于我有 500 万条记录或从网络上爬取的数据，我想重新索引数据而不需要再次爬取这些站点。那么无论如何我可以重新索引已经被索引的数据或者我将不得不再次重新抓取这些站点？请指教。

【问题讨论】：

标签： hadoop solr web-crawler

【解决方案1】：

我在 python SolrClient 库上工作，它有一个专门为此而设计的方便的重新索引器模块。它会以 JSON 文档的形式将您的集合转储到文件系统，或者立即将其索引到另一个集合中。

http://solrclient.readthedocs.io/en/latest/Reindexer.html

这里是如何重新索引集合。

    from SolrClient import SolrClient, IndexQ
    from SolrClient.helpers import Reindexer        
    r = Reindexer(SolrClient('http://localhost:8983/solr'), SolrClient('http://localhost:8983/solr'), source_coll='collection1', dest_coll='collection1', rows=10000)
    r.reindex()

我没有测试重新索引同一个集合，因为我通常重新索引到一个新集合然后切换别名，但它应该可以正常工作。

【讨论】：