【问题标题】:Scrapy ignore allowed_domains?Scrapy忽略allowed_domains?
【发布时间】:2015-02-24 09:51:18
【问题描述】:

Scrapy 忽略了我的蜘蛛规则,甚至遵循不允许的域。

self.start_urls = [ 'http://www.domain.de' ]
self.allowed_domains = [ 'domain.de' ]

但它在某些情况下运行良好并过滤不允许的域,请参阅日志:

调试:过滤到“www.clubsoundz.fm”的异地请求:http://www.clubsoundz.fm/>

我使用 sgmllinkextractor 来跟踪链接,这里是我的“规则”:

规则 = ( 规则(SgmlLinkExtractor(),回调='get_domain_data',follow=True), )

有人可以帮忙吗?

【问题讨论】:

    标签: python hyperlink scrapy


    【解决方案1】:

    我认为这正是我遇到的问题:https://github.com/scrapy/scrapy/issues/184 听起来这个问题没有真正的解决方案:(

    我认为我必须过滤网址,然后蜘蛛继续该过程

    【讨论】:

      猜你喜欢
      • 2014-02-15
      • 1970-01-01
      • 1970-01-01
      • 2015-03-04
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-22
      • 2017-06-17
      相关资源
      最近更新 更多