【问题标题】:Crawler not crawling just a few pages, crawls everything else爬虫不只抓取几页,而是抓取其他所有内容
【发布时间】:2019-01-29 04:33:15
【问题描述】:

我在我的应用程序中设置了爬虫,它运行良好,但只有几个 url 存在问题。它不会抓取这些页面,我看到这几个页面与其他被爬取的页面之间的唯一区别是这些页面上有很多子链接,大约 800-1000 个。

您能否提供帮助,我可以更新任何设置以查看这些设置是否会被抓取。

我使用的是兼容 ES 5.6.3 的爬虫。

谢谢。

【问题讨论】:

    标签: web-crawler stormcrawler


    【解决方案1】:

    检查配置http.content.limit的值,它的值在原型中设置为65536。这可以解释为什么您缺少较大文档上的外链。将其设置为 -1 将保证处理整个文档,而不管其大小。

    【讨论】:

    • 我将它设置为 http.content.limit: 52428800,我将其更新为 -1,但它仍然无法抓取。它确实将它添加到状态索引,即它被发现,但是它对 crawl 命令没有任何作用。我在 crawler-conf 中添加了这个。
    • 我更改了其他一些选项,但效果很好。谢谢朱利安。
    • @heythere 这些选项是什么?如果 URL 被添加到状态索引中,它们迟早会被获取。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-03-16
    相关资源
    最近更新 更多