【发布时间】:2017-11-14 13:51:54
【问题描述】:
所以我想从一个有分页的网站上抓取文章。基本上,每个页面都是一个文章链接列表,并且蜘蛛以parse_article 方法跟随页面上的链接,以及跟随连续的下一页链接。但是,有没有办法在抓取给定数量的文章后停止这种情况?例如,这就是我目前使用crawlspider:
rules = (
#next page rule:
Rule(LinkExtractor(restrict_xpaths="//a[@class='next']"),follow=True)
#Extract all internal links which follows this regex:
Rule(LinkExtractor(allow=('REGEXHERE',),deny=()),callback='parse_article'),
)
def parse_article(self, response):
#do parsing stuff here
解析完 150 篇文章后,我想停止关注下一页。如果我刮过 150 多一点也没关系,我只想在达到这个数字后停止进入下一页。有没有办法做到这一点?像在parse_article 方法中有一个计数器?刚接触scrapy,所以我不确定要尝试什么....我查看了depth_limit,但我不太确定这就是我要找的东西。
任何帮助将不胜感激,谢谢!
【问题讨论】:
标签: python pagination scrapy scrapy-spider