【发布时间】:2013-10-25 14:07:44
【问题描述】:
对于 Nutch 2.2.1,我知道两个爬取命令 - bin/nutch(逐步)、bin/crawl(多合一)
我知道如何为bin/crawl 命令指定爬网ID。同理,bin/nutch命令如何指定爬取ID?
我问的原因是,我使用 all-in-one crawl command "bin/crawl" 指定了一个爬网 ID 运行了一个大型爬网作业,它在 Solr 中为第 9 次爬网迭代编制索引时中断了。现在,我只想为中断的第 9 次迭代运行一步 "bin/nutch solrindex" 命令以完成 solr 索引。我应该如何在“bin/nutch solrindex”命令中指定 crawlID?语法是什么?
我将所有爬取数据存储在 HBase 表“webpage_test”中
【问题讨论】:
标签: solr web-crawler nutch