【发布时间】:2014-11-27 14:56:47
【问题描述】:
我正在尝试从这个网站下载图片:http://www.domu.com/chicago/neighborhoods/humboldt-park/1641-n-maplewood-ave-apt-1-chicago-il-60647
目标网站最近更改了使用唯一 URL 提供图像的方式。下载图像时出现 403 错误。下方链接。我可以在浏览器中加载每个图像一次。图像加载一次后,后续请求会产生 403 错误。当我将浏览器更改为私人模式时,我可以多次重新加载图像。这让我相信他们正在以某种方式跟踪 cookie。我试图在 scrapy 中禁用 cookie,但继续收到 403 错误。我还尝试启用 cookie,但一次处理一个请求。这也会产生 403 错误。目标站点正在为缓存使用清漆服务器。我认为 Varnish 包含一些防刮技术。
关于如何下载图片有什么想法吗?
【问题讨论】: