要阻止爬虫的子域与子目录答案

【问题标题】：Sub-domain vs Sub-directory to block from crawlers要阻止爬虫的子域与子目录
【发布时间】：2013-01-04 04:27:06
【问题描述】：

我用谷歌搜索了很多，阅读了很多文章，但反应不一。

如果我想阻止我网站的某个部分被搜索引擎索引，我有点困惑哪个是更好的选择。基本上我对我的网站进行了很多更新，也为客户设计，我不希望我上传的所有“测试数据”都被索引，以避免重复的内容问题。

我是网页设计的新手，对使用子域有点不安全（在某处读到它是一个有点高级的过程，即使是一个小错误也可能产生很大的后果，此外，Matt Cutts 也提到了类似的东西（@ 987654321@):

“我建议您使用子目录，直到您开始感觉很漂亮对您网站的架构充满信心。届时，你将更好地为您自己的网站做出正确的决定。”

但另一方面，我对使用 robots.txt 以及任何人都可以访问该文件犹豫不决。

两者的优缺点是什么？

现在我的印象是 Google 对两者的处理方式相似，最好使用 robots.txt 的子目录，但在“冒险”之前我想征求第二意见。

【问题讨论】：

如果你把它放到网上假设有人会复制它。 Robots.txt 是可选的 - 不道德的搜索引擎可以而且只会忽略它。如果它必须是部署站点的一部分，请将用户名/密码放在您的“测试区域”上。

【解决方案1】：

要么您要求机器人不要为您的内容编制索引（→ robots.txt）或您将所有人拒之门外（→ 密码保护）。

对于此决定，您使用单独的子域还是文件夹都无关紧要。您可以同时使用 robots.txt 或密码保护。请注意，robots.txt 必须始终放在文档根目录中。

使用 robots.txt 不提供任何保证，这只是一个礼貌的请求。有礼貌的机器人会尊重它，而其他机器人则不会。人类用户仍然可以访问您的“不允许”页面。即使是那些尊重您的 robots.txt（例如 Google）的机器人也可能在其搜索中链接到您的“不允许”内容（但它们不会索引内容）。

使用登录机制可以保护您的网页免受所有机器人和访问者的侵害。

【讨论】：