【问题标题】:Nutch 2.X - Prefered urls to fetchNutch 2.X - 要获取的首选网址
【发布时间】:2013-09-28 15:29:11
【问题描述】:

我有这种情况:我的种子中有超过 160 个 URL。一周前我开始爬行。现在我在我的存储中抓取了很多页面,但我可以在我的 Solr 索引中看到种子中的一些 URL 根本没有被抓取(这些 URL 没有来自 robots.txt 的一些限制)或者只有很少的数量。是否可以告诉 Nutch 偏爱某些 URL?

【问题讨论】:

    标签: solr web-crawler nutch


    【解决方案1】:

    您检查过TopN 的值吗? 还是 Nutch 还在爬行?因为索引和向 solr 发送数据是在进程结束时完成的!

    【讨论】:

    • 这不是问题。问题是一些 URL 在 Solr 中有例如 1500 个索引文档,而一些 URL 只有 15、20 ......而且其中很多只有 0 个文档。我不知道为什么...不是因为robotx.txt或某些禁令...
    • 查看TopN!我认为它是有限的!将其设置为 -1!
    猜你喜欢
    • 2019-04-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多