【发布时间】:2013-07-11 02:05:01
【问题描述】:
我正在使用 scrapy 库来帮助抓取网站。
网站使用身份验证,我可以使用scrapy成功登录页面。
该页面有一个 URL,它将注销用户并销毁会话。
如何确保scrapy在爬取时避免退出页面?
【问题讨论】:
我正在使用 scrapy 库来帮助抓取网站。
网站使用身份验证,我可以使用scrapy成功登录页面。
该页面有一个 URL,它将注销用户并销毁会话。
如何确保scrapy在爬取时避免退出页面?
【问题讨论】:
如果您使用Link Extractors 并且不想点击这个特定的“注销”链接,您可以设置deny 属性:
rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]
另一种选择是检查蜘蛛的parse 方法中的response.url:
def parse(self, response):
if 'logout' in response.url:
return
# extract items
希望对您有所帮助。
【讨论】: