【发布时间】:2016-09-13 11:27:46
【问题描述】:
在抓取https://www.netflix.com之类的网站时,被robots.txt禁止:https://www.netflix.com/>
错误:没有为https://www.netflix.com/下载响应
【问题讨论】:
-
Robots.txt 只是机器人尊重的文本文件,它不能禁止你做任何事情。 Netflix 的抓取可能还有其他障碍。
标签: python scrapy web-crawler