【发布时间】:2015-04-20 21:15:35
【问题描述】:
我正在运行 Scrapy 0.24.4,并且遇到过不少网站会很快关闭爬网,通常在 5 个请求内。网站为每个请求返回 403 或 503,Scrapy 放弃了。我正在运行一个包含 100 个代理的池,并启用了 RotateUserAgentMiddleware。
是否有人知道网站如何快速识别 Scrapy,即使代理和用户代理发生变化? Scrapy 不会在请求标头中添加任何内容,不是吗?
【问题讨论】:
-
如果您在两次刮擦之间暂停,则可能不需要代理。您可能会从抓取目标获得错误响应,因为您抓取的速度,或者代理本身可能出于同样的原因返回这些代码。您能否详细说明为什么要使用代理和轮换用户代理?在大多数情况下,这种行为是不道德的,如果没有更多信息,您的抓取目标可能会阻止您。
标签: python web-scraping scrapy