【发布时间】:2016-06-02 15:36:06
【问题描述】:
我有一个 Solr 设置,它正在从网络爬虫获取数据,目前有大约 500 万个文档。整个系统建立在 Hadoop 之上。
最近我为我的 Solr 实现了自动完成功能。现在的问题是,由于我有 500 万条记录或从网络上爬取的数据,我想重新索引数据而不需要再次爬取这些站点。那么无论如何我可以重新索引已经被索引的数据或者我将不得不再次重新抓取这些站点? 请指教。
BR
【问题讨论】:
标签: hadoop solr web-crawler