【问题标题】:Avoiding redirection避免重定向
【发布时间】:2011-11-24 11:07:16
【问题描述】:

我正在尝试解析一个站点(用 ASP 编写)并且爬虫被重定向到主站点。但我想做的是解析给定的 url,而不是重定向的。有没有办法做到这一点?。我尝试在 settings.py 文件中添加“REDIRECT=False”,但没有成功。

以下是爬虫的一些输出:

2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097>

【问题讨论】:

  • 您究竟是如何检索 URL 的?

标签: python scrapy


【解决方案1】:

http://www.cotodigital.com.ar/l.asp?cat=1097&amp;id=1097 重定向到 http://www.cotodigital.com.ar/default.asp 因为 HTTP 响应是这样说的。发生这种情况是因为 asp 代码正在检查某些条件 - 错误的页面、cookie、用户代理或引荐来源。检查上述条件。

更新: 刚刚检查了我的浏览器:浏览器也被重定向到主页,我点击“跳过广告”。之后就可以正常工作了。

这意味着它设置了一些 cookie,没有它们它会重定向到主页。

另见Scrapy - how to manage cookies/sessions

【讨论】:

    【解决方案2】:

    原始 URL 没有可抓取的内容。它返回 302,表示没有正文,并且 Location 标头指示重定向到的位置。您需要弄清楚如何在不被重定向的情况下访问 URL,也许是通过身份验证。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-11-17
      相关资源
      最近更新 更多