scrapy避免爬虫退出

【问题标题】：scrapy avoid crawler logging outscrapy避免爬虫退出
【发布时间】：2013-07-11 02:05:01
【问题描述】：

我正在使用 scrapy 库来帮助抓取网站。

网站使用身份验证，我可以使用scrapy成功登录页面。

该页面有一个 URL，它将注销用户并销毁会话。

如何确保scrapy在爬取时避免退出页面？

【问题讨论】：

【解决方案1】：

如果您使用Link Extractors 并且不想点击这个特定的“注销”链接，您可以设置deny 属性：

rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]

另一种选择是检查蜘蛛的parse 方法中的response.url：

def parse(self, response):
    if 'logout' in response.url:
        return

    # extract items

希望对您有所帮助。

【讨论】：