【问题标题】:scrapy avoid crawler logging outscrapy避免爬虫退出
【发布时间】:2013-07-11 02:05:01
【问题描述】:

我正在使用 scrapy 库来帮助抓取网站。

网站使用身份验证,我可以使用scrapy成功登录页面。

该页面有一个 URL,它将注销用户并销毁会话。

如何确保scrapy在爬取时避免退出页面?

【问题讨论】:

    标签: python scrapy


    【解决方案1】:

    如果您使用Link Extractors 并且不想点击这个特定的“注销”链接,您可以设置deny 属性:

    rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]
    

    另一种选择是检查蜘蛛的parse 方法中的response.url

    def parse(self, response):
        if 'logout' in response.url:
            return
    
        # extract items
    

    希望对您有所帮助。

    【讨论】:

      猜你喜欢
      • 2019-12-27
      • 2019-06-24
      • 2021-12-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多