我可以在 robots.txt 中使用“Host”指令吗？答案

【问题标题】：Can I use the “Host” directive in robots.txt?我可以在 robots.txt 中使用“Host”指令吗？
【发布时间】：2014-03-27 12:33:08
【问题描述】：

在搜索robots.txt 的具体信息时，我偶然发现了关于此主题的Yandex help page^‡。它建议我可以使用Host 指令告诉爬虫我首选的镜像域：

User-Agent: *
Disallow: /dir/
Host: www.example.com

此外，Wikipedia article 声明 Google 也理解 Host 指令，但没有太多（即没有）信息。

在robotstxt.org，我在Host（或维基百科上所述的Crawl-delay）上没有找到任何东西。

^‡至少从 2021 年初开始，链接条目不再处理相关指令。

【问题讨论】：

这个问题似乎是题外话，因为它是关于 SEO
它是关于主机名和 robots.txt 的技术方面的，它被标记为“seo”和“robots.txt”。它是如何跑题的？
如果有人在寻找 Yandex 主机指令规范，这里有一个链接：web.archive.org/web/20190102064128/https://yandex.com/support/…

【解决方案1】：

original robots.txt specification 说：

无法识别的标头会被忽略。

他们称其为“标题”，但该术语在任何地方都没有定义。但正如在有关格式的部分中提到的，在与User-agent 和Disallow 相同的段落中，假设“标题”表示“字段名称”似乎是安全的。

所以是的，您可以使用Host 或任何其他字段名称。

但请记住：由于 robots.txt 项目没有指定它们，因此您不能确定不同的解析器以相同的方式支持该字段。所以你必须手动检查每个支持的解析器。

【讨论】：