robots.txt 阻止机器人爬行子目录[关闭]答案

【问题标题】：robots.txt block bots crawling subdirectory [closed]robots.txt 阻止机器人爬行子目录[关闭]
【发布时间】：2013-09-01 20:19:53
【问题描述】：

我想阻止所有机器人爬取子目录http://www.mysite.com/admin 以及该目录中的任何文件和文件夹。例如，/admin 内可能还有更多目录，例如 http://www.mysite.com/admin/assets/img

我不确定在 robots.txt 中包含哪些确切正确的声明来执行此操作。

应该是：

User-agent: *
Disallow: /admin/

或者：

User-agent: *
Disallow: /admin/*

或者：

User-agent: *
Disallow: /admin/
Disallow: /admin/*

【问题讨论】：

【解决方案1】：

基于网络上可用的信息（我无法全部检索到，但一些论坛实际上报告了问题，例如 here 和 here）我会关注那些建议我们从不告诉别人的人或机器人（或两者）我们不希望它们看起来在哪里（“管理员”看起来像敏感内容......）。

检查后，我会确认这是您说的第一个。参考here

【讨论】：

我的管理页面或其他目录在被抓取后如何阻止它们出现在谷歌上？
这是一个很好的问题......我让它成为现实。编辑：在谷歌抓取它们之后，我认为撤消有点困难，但我使用他们的网站管理员工具。此外，站点地图也有很大帮助
Robots.txt 的存在是有原因的。例如，如果我有一个目录 /test 并且作为网页设计师，我将所有的测试站点都放在那里，我不希望它们在上线之前出现在搜索引擎上。您不必为了做同样的事情而使用站点地图和网站管理员工具，尤其是当内容每天都在变化时。因此 robots.txt。对我来说，这通常与敏感内容无关，更多的是不希望公众通过搜索引擎访问这些区域。
是的，我正在告诉您我被告知的内容...无论如何，如果答案是您正在寻找的答案，请单击“接受”并谢谢！ ;)
我会接受您的回复，因为它回答了我最初的问题。但是，在我的选择中，您的回答也包含不一定好的建议，也没有证据支持。