【问题标题】:crawl spider doesn't proceed to next page爬行蜘蛛不会进入下一页
【发布时间】:2017-07-03 11:55:16
【问题描述】:

我正在抓取http://www.ulta.com/makeup-eyes-eyebrows?N=26yi 上的所有产品详细信息。我的规则复制如下。我只从第一页获取数据,并没有进入下一页。

rules = (Rule(LinkExtractor(
            restrict_xpaths='//*[@id="canada"]/div[4]/div[2]/div[3]/div[3]/div[2]/ul/li[3]/a',), 
            callback = 'parse',
            follow =True),)

谁能帮我解决这个问题?

【问题讨论】:

标签: python web-crawler scrape


【解决方案1】:

使用CrawlSpider,它会自动爬到其他页面,否则用, 蜘蛛,需要手动传递其他链接

 class Scrapy1Spider(CrawlSpider):

而不是

 class Scrapy1Spider(scrapy.Spider):

见:Scrapy crawl with next page

【讨论】:

  • 我使用爬虫而不是蜘蛛。而restrict_xpaths 是下一个按钮的xpath。但它只抓取第一页。
  • 检查其他链接是否是 allowed_domains 变量的一部分。为什么不在 LinkExtractor 中添加 allow()。
  • 问题已解决。抓取第一页时出现产品错误。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-09-11
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多