robots.txt 禁止所有带有 crawl-delay 的答案

【问题标题】：robots.tx disallow all with crawl-delayrobots.txt 禁止所有带有 crawl-delay 的
【发布时间】：2015-03-22 22:27:09
【问题描述】：

我想从某个站点获取信息，并检查是否允许我抓取它。 robots.txt 文件考虑了 15 个不同的用户代理，然后考虑了其他所有人。我的困惑来自其他人的陈述（包括我）。原来是

User-agent: *                  
Crawl-delay: 5
Disallow: /
Disallow: /sbe_2020/pdfs/
Disallow: /sbe/sbe_2020/2020_pdfs
Disallow: /newawardsearch/
Disallow: /ExportResultServlet*

如果我没看错，该网站要求没有未经授权的用户代理抓取它。但是，它们包含爬行延迟的事实似乎很奇怪。如果我不允许抓取它，为什么还要考虑抓取延迟？为什么他们需要包含任何特定的目录？或者，也许我读错了“ Disallow: /”？

【问题讨论】：

考虑到有人可能不知道他们在做什么......

标签： robots.txt

【解决方案1】：

是的，如果将其简化为以下记录，则该记录将具有相同的含义：

User-agent: *
Disallow: /

与此记录匹配的机器人不允许抓取此主机上的任何内容（拥有不需要的 Crawl-delay 不会改变这一点）。

【讨论】：

抱歉，评论延迟。我决定写信给该网站并询问他们的技术人员是否允许我搜索它。我从来没有得到任何答复。因此，如前所述，这条记录可以很容易地简化为@unor 在此处注释的内容。