Scrapy忽略allowed_domains？答案

【问题标题】：Scrapy ignore allowed_domains?Scrapy忽略allowed_domains？
【发布时间】：2015-02-24 09:51:18
【问题描述】：

Scrapy 忽略了我的蜘蛛规则，甚至遵循不允许的域。

self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]

但它在某些情况下运行良好并过滤不允许的域，请参阅日志：

调试：过滤到“www.clubsoundz.fm”的异地请求：http://www.clubsoundz.fm/>

我使用 sgmllinkextractor 来跟踪链接，这里是我的“规则”：

规则 = ( 规则（SgmlLinkExtractor（），回调='get_domain_data'，follow=True）， )

有人可以帮忙吗？

【问题讨论】：

【解决方案1】：

我认为这正是我遇到的问题：https://github.com/scrapy/scrapy/issues/184 听起来这个问题没有真正的解决方案:(

我认为我必须过滤网址，然后蜘蛛继续该过程

【讨论】：