【发布时间】:2014-03-27 12:33:08
【问题描述】:
在搜索robots.txt 的具体信息时,我偶然发现了关于此主题的Yandex help page‡。它建议我可以使用Host 指令告诉爬虫我首选的镜像域:
User-Agent: *
Disallow: /dir/
Host: www.example.com
此外,Wikipedia article 声明 Google 也理解 Host 指令,但没有太多(即没有)信息。
在robotstxt.org,我在Host(或维基百科上所述的Crawl-delay)上没有找到任何东西。
- 是否鼓励使用
Host指令? - Google 有没有关于这个
robots.txt的资源? - 与其他爬虫的兼容性如何?
‡至少从 2021 年初开始,链接条目不再处理相关指令。
【问题讨论】:
-
这个问题似乎是题外话,因为它是关于 SEO
-
它是关于主机名和 robots.txt 的技术方面的,它被标记为“seo”和“robots.txt”。它是如何跑题的?
-
如果有人在寻找 Yandex 主机指令规范,这里有一个链接:web.archive.org/web/20190102064128/https://yandex.com/support/…
标签: seo robots.txt