【发布时间】:2014-12-19 13:48:26
【问题描述】:
我们有数以千计的 solr 索引/集合,它们共享 nutch 正在抓取的页面。
目前这些页面被多次抓取,每个包含它们的 solr 索引一次。
这些网站可以爬一次,索引间共享爬取数据?
如果网站已被爬取,则可能通过检查现有的 crawldbs 并从那里获取数据以进行解析和索引。
或者一次性爬取所有网站,然后选择性的提交爬取数据到各个索引。 (例如:每个分段一个站点,但由于分段名称是数字而不确定如何识别哪个分段属于哪个站点)
任何想法或帮助表示赞赏:)
【问题讨论】:
标签: solr web-crawler search-engine nutch