被 robots.txt 禁止：scrapy

【问题标题】：getting Forbidden by robots.txt: scrapy被 robots.txt 禁止：scrapy
【发布时间】：2016-09-13 11:27:46
【问题描述】：

在抓取https://www.netflix.com之类的网站时，被robots.txt禁止：https://www.netflix.com/>

错误：没有为https://www.netflix.com/下载响应

【问题讨论】：

【解决方案1】：

在 2016-05-11 推出的新版本（scrapy 1.1）中，抓取首先下载 robots.txt，然后再抓取。要更改 settings.py 中的这种行为，请使用 ROBOTSTXT_OBEY

ROBOTSTXT_OBEY = False

【讨论】：

【解决方案2】：

您需要确保的第一件事是更改请求中的用户代理，否则默认用户代理肯定会被阻止。

【讨论】：

【解决方案3】：

Netflix 的使用条款状态：

您还同意不规避、删除、更改、停用、降级或阻挠 Netflix 服务中的任何内容保护；使用任何机器人、蜘蛛、爬虫或其他自动化方式访问 Netflix 服务；

他们设置了 robots.txt 来阻止网络抓取工具。如果您将settings.py 中的设置覆盖为ROBOTSTXT_OBEY=False，则您违反了他们的使用条款，这可能会导致诉讼。

【讨论】：