避免重定向答案

【问题标题】：Avoiding redirection避免重定向
【发布时间】：2011-11-24 11:07:16
【问题描述】：

我正在尝试解析一个站点（用 ASP 编写）并且爬虫被重定向到主站点。但我想做的是解析给定的 url，而不是重定向的。有没有办法做到这一点？。我尝试在 settings.py 文件中添加“REDIRECT=False”，但没有成功。

以下是爬虫的一些输出：

2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097>

【问题讨论】：

您究竟是如何检索 URL 的？

标签： python scrapy

【解决方案1】：

http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097 重定向到 http://www.cotodigital.com.ar/default.asp 因为 HTTP 响应是这样说的。发生这种情况是因为 asp 代码正在检查某些条件 - 错误的页面、cookie、用户代理或引荐来源。检查上述条件。

更新：刚刚检查了我的浏览器：浏览器也被重定向到主页，我点击“跳过广告”。之后就可以正常工作了。

这意味着它设置了一些 cookie，没有它们它会重定向到主页。

另见Scrapy - how to manage cookies/sessions

【讨论】：

【解决方案2】：

原始 URL 没有可抓取的内容。它返回 302，表示没有正文，并且 Location 标头指示重定向到的位置。您需要弄清楚如何在不被重定向的情况下访问 URL，也许是通过身份验证。

【讨论】：