阻止搜索引擎爬取目录

【问题标题】：block search engine crawling directory阻止搜索引擎爬取目录
【发布时间】：2014-03-12 03:57:42
【问题描述】：

我的网站有这样的 URL（最长）结构

所以最多有 3 个目录级别，但由于 CMS 和其他问题，我的网站在搜索引擎中被索引为超过 3 个目录级别的 URL，例如，

http://www.example.com/xyz-pqr/abcd-efgh/xyz-pqr/abcd-efgh/123.html
http://www.example.com/xyz-pqr/abcd-efgh/xyz-pqr/abcd-efgh/abcd-efgh/123.html

我想在 robots.txt 中编写代码，这样搜索引擎就不会爬取超过 3 个目录级别。我该怎么做呢？提前谢谢...

【问题讨论】：

【解决方案1】：

我不确定，但我认为以下应该可行：

User-agent: *
Disallow: /*/*/*/

所以，给定这两个 URL：

http://www.example.com/xyz-pqr/abcd-efgh/123.html
http://www.example.com/xyz-pqr/abcd-efgh/foo-bar/123.html

第一个会被接受，因为它只有两个目录段 (/xyz-pqr-abcd-efgh)。

第二个将被阻止，因为它具有三个目录段。

而且任何更长的内容也会被阻止。

【讨论】：