【问题标题】:block search engine crawling directory阻止搜索引擎爬取目录
【发布时间】:2014-03-12 03:57:42
【问题描述】:

我的网站有这样的 URL(最长)结构

http://www.example.com/xyz-pqr/abcd-efgh/123.html

所以最多有 3 个目录级别,但由于 CMS 和其他问题,我的网站在搜索引擎中被索引为超过 3 个目录级别的 URL,例如,

http://www.example.com/xyz-pqr/abcd-efgh/xyz-pqr/abcd-efgh/123.html
http://www.example.com/xyz-pqr/abcd-efgh/xyz-pqr/abcd-efgh/abcd-efgh/123.html

我想在 robots.txt 中编写代码,这样搜索引擎就不会爬取超过 3 个目录级别。我该怎么做呢?提前谢谢...

【问题讨论】:

    标签: .htaccess robots.txt


    【解决方案1】:

    我不确定,但我认为以下应该可行:

    User-agent: *
    Disallow: /*/*/*/
    

    所以,给定这两个 URL:

    http://www.example.com/xyz-pqr/abcd-efgh/123.html
    http://www.example.com/xyz-pqr/abcd-efgh/foo-bar/123.html
    

    第一个会被接受,因为它只有两个目录段 (/xyz-pqr-abcd-efgh)。

    第二个将被阻止,因为它具有三个目录段。

    而且任何更长的内容也会被阻止。

    【讨论】: