【问题标题】:robots.txt URL formatrobots.txt 网址格式
【发布时间】:2013-01-26 16:22:15
【问题描述】:

根据this page

User-agent 或 Disallow 行不支持通配符和正则表达式

但是,我注意到 stackoverflow robots.txt 包含 * 和 ?在网址中。这些是否支持?

另外,URL 是否包含尾部斜杠或这两个斜杠是否等价有什么区别?

Disallow: /privacy
Disallow: /privacy/

【问题讨论】:

  • 取决于我猜的机器人

标签: robots.txt


【解决方案1】:

你的第二个问题,两者不等价。 /privacy 将阻止以/privacy 开头的任何内容,包括/privacy_xyzzy 之类的内容。另一方面,/privacy/ 不会阻止它。

原始 robots.txt 不支持通配符或通配符。但是,许多机器人会这样做。几年前,谷歌、微软和雅虎就一个标准达成了一致。详情请见http://googlewebmastercentral.blogspot.com/2008/06/improving-on-robots-exclusion-protocol.html

据我所知,大多数主要机器人都支持该“标准”。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-07-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-01-01
    • 2011-06-03
    相关资源
    最近更新 更多