Nutch 爬行命令答案

【问题标题】：Nutch crawl commandNutch 爬行命令
【发布时间】：2013-10-25 14:07:44
【问题描述】：

对于 Nutch 2.2.1，我知道两个爬取命令 - bin/nutch（逐步）、bin/crawl（多合一）

我知道如何为bin/crawl 命令指定爬网ID。同理，bin/nutch命令如何指定爬取ID？

我问的原因是，我使用 all-in-one crawl command "bin/crawl" 指定了一个爬网 ID 运行了一个大型爬网作业，它在 Solr 中为第 9 次爬网迭代编制索引时中断了。现在，我只想为中断的第 9 次迭代运行一步 "bin/nutch solrindex" 命令以完成 solr 索引。我应该如何在“bin/nutch solrindex”命令中指定 crawlID？语法是什么？

我将所有爬取数据存储在 HBase 表“webpage_test”中

【问题讨论】：

标签： solr web-crawler nutch

【解决方案1】：

您可以运行 bin/nutch solrindex 并在参数中传递 crawl 和 segments 文件夹。

Nutch 将索引所有文档但不会创建重复，因为它将使用 ID 字段来确定它们是否已被插入。

【讨论】：