【问题标题】:How to give depth in nutch 2.3 crawl如何在 nutch 2.3 爬行中赋予深度
【发布时间】:2015-08-08 11:52:38
【问题描述】:

在 v2.2.1 中,有一个 nutch crawl 命令,您可以在其中提供深度爬行

bin/nutch 爬行 [-solr ] [-dir d] [-threads n] [-depth i] [-topN N]

如何为 nutch v2.3 做同样的事情?

【问题讨论】:

    标签: web-crawler nutch


    【解决方案1】:

    脚本的文档没有更新,我认为那里的脚本与 Nutch 1.4 相关。

    您始终可以在github 上查看 Nutch 正式存储库,当然请确保您查看的是正确的分支。

    反正Nutch 2.X爬取脚本如下(可以看2.3源码here):

    crawl <seedDir> <crawlId> <solrURL> <numberOfRounds>
    

    seedDir 是您的种子 URL 文件所在的目录,crawlId 是您希望调用抓取作业的名称,solrURL是不言自明的,numberOfRounds 就是您要查找的内容。

    但请注意,该脚本还具有您可以更改的参数(在脚本内),例如每个级别获取的页面数(即抓取的广度)。

    【讨论】:

      【解决方案2】:

      它在 conf 文件夹中的 nutch-default.xml 中

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2018-06-07
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多