【问题标题】:Can I use the “Host” directive in robots.txt?我可以在 robots.txt 中使用“Host”指令吗?
【发布时间】:2014-03-27 12:33:08
【问题描述】:

在搜索robots.txt 的具体信息时,我偶然发现了关于此主题的Yandex help page。它建议我可以使用Host 指令告诉爬虫我首选的镜像域:

User-Agent: *
Disallow: /dir/
Host: www.example.com

此外,Wikipedia article 声明 Google 也理解 Host 指令,但没有太多(即没有)信息。

robotstxt.org,我在Host(或维基百科上所述的Crawl-delay)上没有找到任何东西。

  1. 是否鼓励使用Host 指令?
  2. Google 有没有关于这个robots.txt 的资源?
  3. 与其他爬虫的兼容性如何?

至少从 2021 年初开始,链接条目不再处理相关指令。

【问题讨论】:

  • 这个问题似乎是题外话,因为它是关于 SEO
  • 它是关于主机名和 robots.txt 的技术方面的,它被标记为“seo”和“robots.txt”。它是如何跑题的?
  • 如果有人在寻找 Yandex 主机指令规范,这里有一个链接:web.archive.org/web/20190102064128/https://yandex.com/support/…

标签: seo robots.txt


【解决方案1】:

original robots.txt specification 说:

无法识别的标头会被忽略。

他们称其为“标题”,但该术语在任何地方都没有定义。但正如在有关格式的部分中提到的,在与User-agentDisallow 相同的段落中,假设“标题”表示“字段名称”似乎是安全的。

所以是的,您可以使用Host任何 其他字段名称。

  • Robots.txt 解析器支持此类字段,嗯,支持它们。
  • 不支持此类字段的 Robots.txt 解析器必须忽略它们。

但请记住:由于 robots.txt 项目没有指定它们,因此您不能确定不同的解析器以相同的方式支持该字段。所以你必须手动检查每个支持的解析器。

【讨论】:

  • 所以Host 是别人对机器人排除标准的补充,因为它没有在 robotstxt.org 中定义‽
  • @dakab:是的,Host 字段在原始 robots.txt 规范中没有指定。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-01-22
  • 2015-02-07
  • 1970-01-01
  • 2016-07-26
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多