【发布时间】:2016-04-06 21:21:16
【问题描述】:
我使用“requests”和“beautifulSoup”api 在 python 中编写了一个代码,以从 google 返回的前 100 个站点中抓取文本数据。 好吧,它在大多数网站上都很好用,但是对于那些稍后响应或根本没有响应的网站,它会给出错误 我收到此错误
引发 MaxRetryError(_pool, url, error or ResponseError(cause)) requests.packages.urllib3.exceptions.MaxRetryError: HTTPConnectionPool(host='www.lfpress.com', port=80): 最大重试次数超过 url: /2015/11/06/fair-with-a-flare-samosas-简单(由NewConnectionError引起(':无法建立新连接:[Errno 11001] getaddrinfo failed',))
我应该更改在请求 API 中编写的代码吗?或者我需要使用一些代理?我怎样才能离开该站点并转到下一个站点?由于错误正在停止我的执行。
【问题讨论】:
-
尝试:.. 除外:通过?
标签: python web-scraping beautifulsoup python-requests text-mining