【发布时间】:2015-08-08 11:52:38
【问题描述】:
在 v2.2.1 中,有一个 nutch crawl 命令,您可以在其中提供深度爬行
bin/nutch 爬行 [-solr ] [-dir d] [-threads n] [-depth i] [-topN N]
如何为 nutch v2.3 做同样的事情?
【问题讨论】:
标签: web-crawler nutch
在 v2.2.1 中,有一个 nutch crawl 命令,您可以在其中提供深度爬行
bin/nutch 爬行 [-solr ] [-dir d] [-threads n] [-depth i] [-topN N]
如何为 nutch v2.3 做同样的事情?
【问题讨论】:
标签: web-crawler nutch
脚本的文档没有更新,我认为那里的脚本与 Nutch 1.4 相关。
您始终可以在github 上查看 Nutch 正式存储库,当然请确保您查看的是正确的分支。
反正Nutch 2.X爬取脚本如下(可以看2.3源码here):
crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>
seedDir 是您的种子 URL 文件所在的目录,crawlId 是您希望调用抓取作业的名称,solrURL是不言自明的,numberOfRounds 就是您要查找的内容。
但请注意,该脚本还具有您可以更改的参数(在脚本内),例如每个级别获取的页面数(即抓取的广度)。
【讨论】:
它在 conf 文件夹中的 nutch-default.xml 中
【讨论】: