如何在 nutch 2.3 爬行中赋予深度答案

【问题标题】：How to give depth in nutch 2.3 crawl如何在 nutch 2.3 爬行中赋予深度
【发布时间】：2015-08-08 11:52:38
【问题描述】：

在 v2.2.1 中，有一个 nutch crawl 命令，您可以在其中提供深度爬行

bin/nutch 爬行 [-solr ] [-dir d] [-threads n] [-depth i] [-topN N]

如何为 nutch v2.3 做同样的事情？

【问题讨论】：

【解决方案1】：

脚本的文档没有更新，我认为那里的脚本与 Nutch 1.4 相关。

您始终可以在github 上查看 Nutch 正式存储库，当然请确保您查看的是正确的分支。

反正Nutch 2.X爬取脚本如下（可以看2.3源码here）：

crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>

seedDir 是您的种子 URL 文件所在的目录，crawlId 是您希望调用抓取作业的名称，solrURL是不言自明的，numberOfRounds 就是您要查找的内容。

但请注意，该脚本还具有您可以更改的参数（在脚本内），例如每个级别获取的页面数（即抓取的广度）。

【讨论】：

【解决方案2】：

它在 conf 文件夹中的 nutch-default.xml 中

【讨论】：