Scrapy 抓取工具尊重 robots.txt 中的 Crawl-Delay 的最简单方法是什么？答案

【问题标题】：Which is the easiest way for Scrapy scrapers to respect Crawl-Delay in robots.txt?Scrapy 抓取工具尊重 robots.txt 中的 Crawl-Delay 的最简单方法是什么？
【发布时间】：2011-12-04 20:50:26
【问题描述】：

是否有一个我可以切换的设置或DownloaderMiddleware 我可以使用它来强制robots.txt 的Crawl-Delay 设置？如果没有，如何在爬虫中实现速率限制？

【问题讨论】：

查看我对您其他问题的回答stackoverflow.com/questions/8378726/…

标签： robots.txt scrapy

【解决方案1】：

有一个功能请求 (#892) 在 Scrapy 中支持此功能，但目前尚未实现。

不过，#892 包含一个指向代码片段的链接，您可以将其用作创建自己的实现的起点。

如果你这样做了，并且你能胜任这项任务，请考虑向 Scrapy 发送拉取请求以集成你的更改。

【讨论】：

【解决方案2】：

Spider 可以或不能尊重 robots.txt 中的抓取延迟，不必为机器人解析 robots.txt！

您可以使用防火墙来禁止在您的网站中积极爬行的 ip。

您知道哪些机器人会给您带来麻烦吗？ Google Bot 或其他大型搜索引擎使用的 bot 会尽量不溢出您的服务器。

【讨论】：