【问题标题】:getting Forbidden by robots.txt: scrapy被 robots.txt 禁止:scrapy
【发布时间】:2016-09-13 11:27:46
【问题描述】:

在抓取https://www.netflix.com之类的网站时,被robots.txt禁止:https://www.netflix.com/>

错误:没有为https://www.netflix.com/下载响应

【问题讨论】:

  • Robots.txt 只是机器人尊重的文本文件,它不能禁止你做任何事情。 Netflix 的抓取可能还有其他障碍。

标签: python scrapy web-crawler


【解决方案1】:

在 2016-05-11 推出的新版本(scrapy 1.1)中,抓取首先下载 robots.txt,然后再抓取。要更改 settings.py 中的这种行为,请使用 ROBOTSTXT_OBEY

ROBOTSTXT_OBEY = False

这里是release notes

【讨论】:

    【解决方案2】:

    您需要确保的第一件事是更改请求中的用户代理,否则默认用户代理肯定会被阻止。

    【讨论】:

    • 如何更改用户代理?
    【解决方案3】:

    Netflix 的使用条款状态:

    您还同意不规避、删除、更改、停用、降级或阻挠 Netflix 服务中的任何内容保护;使用任何机器人、蜘蛛、爬虫或其他自动化方式访问 Netflix 服务;

    他们设置了 robots.txt 来阻止网络抓取工具。如果您将settings.py 中的设置覆盖为ROBOTSTXT_OBEY=False,则您违反了他们的使用条款,这可能会导致诉讼。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-04-07
      • 2023-04-03
      • 2016-08-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多