【发布时间】:2017-09-05 12:43:18
【问题描述】:
我正在尝试通过 Scrapy 抓取网站。但是,该网站有时非常慢,浏览器中的第一次请求响应需要将近 15-20 秒。无论如何,有时,当我尝试使用 Scrapy 抓取网站时,我不断收到 TCP 超时错误。即使该网站在我的浏览器上打开得很好。这是消息:
2017-09-05 17:34:41 [scrapy.downloadermiddlewares.retry] DEBUG: Gave up retrying <GET http://www.hosane.com/result/spec
ialList> (failed 16 times): TCP connection timed out: 10060: A connection attempt failed because the connected party di
d not properly respond after a period of time, or established connection failed because connected host has failed to re
spond..
我什至覆盖了USER_AGENT 设置进行测试。
我认为DOWNLOAD_TIMEOUT 设置在这种情况下不起作用,因为它默认为 180 秒,而 Scrapy 甚至不需要 20-30 秒就给出 TCP 超时错误。
知道是什么导致了这个问题吗?有没有办法在 Scrapy 中设置 TCP 超时?
【问题讨论】:
标签: web-scraping scrapy