【发布时间】:2012-01-13 02:41:37
【问题描述】:
我正在使用 CrawlSpider 从网页中抓取和提取数据。
起始 url 只有一个链接(这是一个直接链接),并且必须从该链接中抓取数据(如果我使用 BaseSpider 并提供直接链接,数据将被成功抓取)。但是,当我运行 CrawlSpider 时,它会收到一些奇怪的 301 请求,并且控制不会到达执行抓取的 parse_item()。
我有一个名为 main_page.html 的本地主机页面,它有一个指向 http://www.flipkart.com/office-supplies/pen/faber-castell/itmd4fpkgkd7e3fj?pid=pend4fpkyk2w9fd4&_l=U0SclLhlhi7jGPVIA8xWyA--&_r=tcVDd6I7AkBG9cR2hX21MA--&ref=5b471a78-5264-4e09-ba61-03f8965e10d0 的链接,我认为它是一个直接链接。在运行爬虫时,我在 scrapy- 看到以下输出-
2011-12-05 15:54:34+0530 [flipkart_spider] 调试:已爬网 (200) http://localhost/main_page.html>(引用者:无)
2011-12-05 15:54:35+0530 [flipkart_spider] 调试:重定向 (301) 到 http://www.flipkart.com/office-supplies/pen/faber-castell/itmd4fpkgkd7e3fj?pid=pend4fpkyk2w9fd4&_l=U0SclLhlhi7jGPVIA8xWyA--&_r=tcVDd21MA-R2Ak -&ref=5b471a78-5264-4e09-ba61-03f8965e10d0> 来自 http://www.flipkart.com/office-supplies/pen/faber-castell/itmd4fpkgkd7e3fj?_l=U0SclLhlhi7jGPVIA8xWyA--&_r=tcVDd6I7AkBG9cR2hX21MA--&pid=pend4fpkyk2w9fd4&ref=5b471a78-0264-4e05e16d-pba3--&pid=pend4fpkyk2w9fd4&ref=5b471a78-0264-4e090-pba >
我在parse_item() 中有一个未调用的打印语句。这里有什么问题?
【问题讨论】: