【发布时间】:2017-02-28 22:10:24
【问题描述】:
最近看到一个网站的robots.txt如下:
User-agent: *
Allow: /login
Allow: /register
我只能找到 Allow 条目,没有找到 Disallow 条目。
从this,我可以理解robots.txt 几乎是Disallow 要抓取的页面的黑名单文件。因此,Allow 仅用于允许已被Disallow 阻止的域的子部分。类似这样:
Allow: /crawlthis
Disallow: /
但是,那个 robots.txt 没有 Disallow 条目。那么,这个 robots.txt 会让 Google 抓取所有页面吗?或者,它是否只允许带有Allow标签的指定页面?
【问题讨论】:
标签: seo web-crawler robots.txt googlebot