【发布时间】:2015-03-22 22:27:09
【问题描述】:
我想从某个站点获取信息,并检查是否允许我抓取它。 robots.txt 文件考虑了 15 个不同的用户代理,然后考虑了其他所有人。我的困惑来自其他人的陈述(包括我)。原来是
User-agent: *
Crawl-delay: 5
Disallow: /
Disallow: /sbe_2020/pdfs/
Disallow: /sbe/sbe_2020/2020_pdfs
Disallow: /newawardsearch/
Disallow: /ExportResultServlet*
如果我没看错,该网站要求没有未经授权的用户代理抓取它。但是,它们包含爬行延迟的事实似乎很奇怪。如果我不允许抓取它,为什么还要考虑抓取延迟?为什么他们需要包含任何特定的目录?或者,也许我读错了“ Disallow: /”?
【问题讨论】:
-
考虑到有人可能不知道他们在做什么......
标签: robots.txt