【问题标题】:Which is the easiest way for Scrapy scrapers to respect Crawl-Delay in robots.txt?Scrapy 抓取工具尊重 robots.txt 中的 Crawl-Delay 的最简单方法是什么?
【发布时间】:2011-12-04 20:50:26
【问题描述】:

是否有一个我可以切换的设置或DownloaderMiddleware 我可以使用它来强制robots.txt 的Crawl-Delay 设置?如果没有,如何在爬虫中实现速率限制?

【问题讨论】:

标签: robots.txt scrapy


【解决方案1】:

有一个功能请求 (#892) 在 Scrapy 中支持此功能,但目前尚未实现。

不过,#892 包含一个指向代码片段的链接,您可以将其用作创建自己的实现的起点。

如果你这样做了,并且你能胜任这项任务,请考虑向 Scrapy 发送拉取请求以集成你的更改。

【讨论】:

    【解决方案2】:

    Spider 可以或不能尊重 robots.txt 中的抓取延迟,不必为机器人解析 robots.txt!

    您可以使用防火墙来禁止在您的网站中积极爬行的 ip。

    您知道哪些机器人会给您带来麻烦吗? Google Bot 或其他大型搜索引擎使用的 bot 会尽量不溢出您的服务器。

    【讨论】:

      猜你喜欢
      • 2015-03-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-08-05
      • 2012-10-08
      • 1970-01-01
      • 1970-01-01
      • 2016-02-20
      相关资源
      最近更新 更多