【问题标题】:Is there anyway to log the list of urls 'ignored' in Nutch crawl?无论如何要在 Nutch 抓取中记录“忽略”的 url 列表?
【发布时间】:2013-03-16 18:36:43
【问题描述】:

我正在使用 Nutch 爬取种子文件中指定的 URL 列表,深度为 100,topN 为 10,000,以确保完全爬取。另外,我正在尝试使用 regex-urlfilter http://rubular.com/r/oSkwqGHrri 忽略路径中具有重复字符串的 url

但是,我很想知道在抓取过程中忽略了哪些网址。无论如何,我可以在 Nutch 爬行时记录“忽略”的 url 列表吗?

【问题讨论】:

    标签: apache solr web-crawler nutch


    【解决方案1】:

    可以使用以下命令找到链接

    bin/nutch readdb PATH_TO_CRAWL_DB -stats -sort -dump DUMP_FOLDER -format csv

    这将在 dump_folder 中生成 part-00000 文件,该文件将分别包含 url 列表及其状态。

    状态为 db_unfetched 的已被爬虫忽略。

    【讨论】:

    • 正是我想要的。谢谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多