【发布时间】:2020-01-24 00:27:08
【问题描述】:
我在 ubuntu 18.04 上使用 selenium,python3.6 scrapinghub crawlera 构建了一个爬虫,到目前为止运行良好。我正在抓取汽车网站,几个月前就开始了,刮板下载图像的速度约为每小时 60 到 100 辆汽车。在转到下一个请求之前,它确实会在页面上停留几分钟。但是,最近我注意到这已经变慢了,并且是由于页面加载时间超过 600 秒而导致 selenium web 驱动程序超时造成的。我确实有一个超时异常,它处理超时并退出 url,但每次加载图像需要超过 10 分钟
raise exception_class(message, screen, stacktrace)
selenium.common.exceptions.TimeoutException: Message: timeout
(Session info: chrome=79.0.3945.130)
经过一些调试后,我注意到连接显示 HTTPS 请求不安全,这是导致连接缓慢的原因。但是,该站点是安全的,并且之前没有显示,所以我不确定发生了什么变化。我确实将 chrome 升级到了 79 版,并认为这是问题的原因。
任何帮助将不胜感激。
【问题讨论】:
-
可能有隐藏这些警告的选项,不是吗?
标签: python selenium google-chrome web-scraping selenium-chromedriver