【问题标题】:Nutch crawl commandNutch 爬行命令
【发布时间】:2013-10-25 14:07:44
【问题描述】:

对于 Nutch 2.2.1,我知道两个爬取命令 - bin/nutch(逐步)、bin/crawl(多合一)

我知道如何为bin/crawl 命令指定爬网ID。同理,bin/nutch命令如何指定爬取ID?

我问的原因是,我使用 all-in-one crawl command "bin/crawl" 指定了一个爬网 ID 运行了一个大型爬网作业,它在 Solr 中为第 9 次爬网迭代编制索引时中断了。现在,我只想为中断的第 9 次迭代运行一步 "bin/nutch solrindex" 命令以完成 solr 索引。我应该如何在“bin/nutch solrindex”命令中指定 crawlID?语法是什么?

我将所有爬取数据存储在 HBase 表“webpage_test”中

【问题讨论】:

    标签: solr web-crawler nutch


    【解决方案1】:

    您可以运行 bin/nutch solrindex 并在参数中传递 crawl 和 segments 文件夹。

    Nutch 将索引所有文档但不会创建重复,因为它将使用 ID 字段来确定它们是否已被插入。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多