【发布时间】:2019-01-29 04:33:15
【问题描述】:
我在我的应用程序中设置了爬虫,它运行良好,但只有几个 url 存在问题。它不会抓取这些页面,我看到这几个页面与其他被爬取的页面之间的唯一区别是这些页面上有很多子链接,大约 800-1000 个。
您能否提供帮助,我可以更新任何设置以查看这些设置是否会被抓取。
我使用的是兼容 ES 5.6.3 的爬虫。
谢谢。
【问题讨论】:
我在我的应用程序中设置了爬虫,它运行良好,但只有几个 url 存在问题。它不会抓取这些页面,我看到这几个页面与其他被爬取的页面之间的唯一区别是这些页面上有很多子链接,大约 800-1000 个。
您能否提供帮助,我可以更新任何设置以查看这些设置是否会被抓取。
我使用的是兼容 ES 5.6.3 的爬虫。
谢谢。
【问题讨论】:
检查配置http.content.limit的值,它的值在原型中设置为65536。这可以解释为什么您缺少较大文档上的外链。将其设置为 -1 将保证处理整个文档,而不管其大小。
【讨论】: