【发布时间】:2015-02-24 09:51:18
【问题描述】:
Scrapy 忽略了我的蜘蛛规则,甚至遵循不允许的域。
self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]
但它在某些情况下运行良好并过滤不允许的域,请参阅日志:
调试:过滤到“www.clubsoundz.fm”的异地请求:http://www.clubsoundz.fm/>
我使用 sgmllinkextractor 来跟踪链接,这里是我的“规则”:
规则 = ( 规则(SgmlLinkExtractor(),回调='get_domain_data',follow=True), )
有人可以帮忙吗?
【问题讨论】: