【发布时间】:2011-12-04 20:50:26
【问题描述】:
是否有一个我可以切换的设置或DownloaderMiddleware 我可以使用它来强制robots.txt 的Crawl-Delay 设置?如果没有,如何在爬虫中实现速率限制?
【问题讨论】:
-
查看我对您其他问题的回答stackoverflow.com/questions/8378726/…
标签: robots.txt scrapy
是否有一个我可以切换的设置或DownloaderMiddleware 我可以使用它来强制robots.txt 的Crawl-Delay 设置?如果没有,如何在爬虫中实现速率限制?
【问题讨论】:
标签: robots.txt scrapy
Spider 可以或不能尊重 robots.txt 中的抓取延迟,不必为机器人解析 robots.txt!
您可以使用防火墙来禁止在您的网站中积极爬行的 ip。
您知道哪些机器人会给您带来麻烦吗? Google Bot 或其他大型搜索引擎使用的 bot 会尽量不溢出您的服务器。
【讨论】: