【发布时间】:2012-01-07 18:28:31
【问题描述】:
我搜索了很多主题,但似乎没有找到我特定问题的答案。 我为一个网站创建了一个爬虫,它运行良好。然后我做了一个类似的爬取类似的网站,但这次我有一个小问题。言归正传:
我的起始网址如下所示: www.example.com 。该页面包含我想应用我的蜘蛛的链接,如下所示:
- www.example.com/locationA
- www.example.com/locationB
- www.example.com/locationC
...
我现在有一个问题: 每次我输入起始网址时,它都会自动重定向到 www.example.com/locationA 并且我让我的蜘蛛工作的所有链接都包括
- www.example.com/locationB
- www.example.com/locationC ...
所以我的问题是如何在返回的 URL 中包含 www.example.com/locationA。我什至得到如下日志信息:
-2011-11-28 21:25:33+1300 [example.com] 调试:重定向 (302) 到来自 http://www.example.com/>
-2011-11-28 21:25:34+1300[example.com] 调试:将 (302) 重定向到(引用者:无)
- 2011-11-28 21:25:37+1300 [example.com] 调试:重定向 (302) 到(引用者:www.example.com/locationB)
从 parse_item 打印出来:www.example.com/locationB
....
我认为这个问题可能与那个(推荐人:无)有关。有人能解释一下吗?
我已通过将起始 URL 更改为 www.example.com/locationB 来缩小此问题的范围。由于所有页面都包含所有位置的列表,所以这次我让我的蜘蛛开始工作:
-www.example.com/locationA
-www.example.com/locationC ...
简而言之,我正在寻找将与起始 url 相同(或被重定向)的 url 包含到 parse_item 回调将处理的列表中的方法。
【问题讨论】:
-
您能否提供一个来自您的抓取工具的简短示例,以帮助我们更详细地了解您的问题?
标签: scrapy web-crawler