Robots.txt 和允许？答案

【问题标题】：Robots.txt and Allow?Robots.txt 和允许？
【发布时间】：2017-06-08 23:58:39
【问题描述】：

所以我是网络爬虫的新手，我无法理解特定的 robots.txt 文件。在这种情况下，这就是网站所拥有的：

User-agent: *

Allow: /

Sitemap: sitemapURLHere

所以我查找了/here，发现它适用于任何路径。那么这是否意味着该网站允许对所有页面进行爬取呢？但是，当我尝试使用 scrapy 对 sitemap.xml（或其他站点 URL）链接进行基本爬取时，即

scrapy shell siteURL

我收到403 HTTP 响应，我假设来自this 链接意味着该网站不希望您抓取...那么该网站的robots.txt 到底是什么意思？

EDIT我说的文件是here

【问题讨论】：

【解决方案1】：

这意味着“任何用户代理（机器人）都可以访问所有内容”和“在与robots.txt 相同的目录中有一个名为 sitemapURLHere 的站点地图”。

REM： robots.txt 只是一组指示，而不是强制访问限制的手段。如果不能报废，不是robots.txt本身的原因。

【讨论】：