爬行蜘蛛不会进入下一页答案

【问题标题】：crawl spider doesn't proceed to next page爬行蜘蛛不会进入下一页
【发布时间】：2017-07-03 11:55:16
【问题描述】：

我正在抓取http://www.ulta.com/makeup-eyes-eyebrows?N=26yi 上的所有产品详细信息。我的规则复制如下。我只从第一页获取数据，并没有进入下一页。

rules = (Rule(LinkExtractor(
            restrict_xpaths='//*[@id="canada"]/div[4]/div[2]/div[3]/div[3]/div[2]/ul/li[3]/a',), 
            callback = 'parse',
            follow =True),)

谁能帮我解决这个问题？

【问题讨论】：

使用下面问题中提到的 CrawlSpider，stackoverflow.com/questions/32624033/…
我认为我的代码完全遵循上面链接中的爬虫。但不工作

标签： python web-crawler scrape

【解决方案1】：

使用CrawlSpider，它会自动爬到其他页面，否则用，蜘蛛，需要手动传递其他链接

 class Scrapy1Spider(CrawlSpider):

而不是

 class Scrapy1Spider(scrapy.Spider):

见：Scrapy crawl with next page

【讨论】：

我使用爬虫而不是蜘蛛。而restrict_xpaths 是下一个按钮的xpath。但它只抓取第一页。
检查其他链接是否是 allowed_domains 变量的一部分。为什么不在 LinkExtractor 中添加 allow()。
问题已解决。抓取第一页时出现产品错误。