【问题标题】:robots.txt block bots crawling subdirectory [closed]robots.txt 阻止机器人爬行子目录[关闭]
【发布时间】:2013-09-01 20:19:53
【问题描述】:

我想阻止所有机器人爬取子目录http://www.mysite.com/admin 以及该目录中的任何文件和文件夹。例如,/admin 内可能还有更多目录,例如 http://www.mysite.com/admin/assets/img

我不确定在 robots.txt 中包含哪些确切正确的声明来执行此操作。

应该是:

User-agent: *
Disallow: /admin/

或者:

User-agent: *
Disallow: /admin/*

或者:

User-agent: *
Disallow: /admin/
Disallow: /admin/*

【问题讨论】:

  • 我建议您永远不要告诉人们您不想让他们看的地方;)在检查后返回答案。不过我会说第一个
  • 这个问题似乎是题外话,因为它是关于 SEO
  • @JohnConde 你在说什么?我的问题是专门询问要使用的正确代码是什么。这是一个编码问题。
  • 编写 robots.txt 文件不符合任何人的标准,包括堆栈溢出。
  • 那么关于robots.txt文件的问题不能在这里问吗?

标签: seo search-engine robots.txt robot


【解决方案1】:

基于网络上可用的信息(我无法全部检索到,但一些论坛实际上报告了问题,例如 herehere)我会关注那些建议我们从不告诉别人的人或机器人(或两者)我们不希望它们看起来在哪里(“管理员”看起来像敏感内容......)。

检查后,我会确认这是您说的第一个。参考here

【讨论】:

  • 我的管理页面或其他目录在被抓取后如何阻止它们出现在谷歌上?
  • 这是一个很好的问题......我让它成为现实。编辑:在谷歌抓取它们之后,我认为撤消有点困难,但我使用他们的网站管理员工具。此外,站点地图也有很大帮助
  • Robots.txt 的存在是有原因的。例如,如果我有一个目录 /test 并且作为网页设计师,我将所有的测试站点都放在那里,我不希望它们在上线之前出现在搜索引擎上。您不必为了做同样的事情而使用站点地图和网站管理员工具,尤其是当内容每天都在变化时。因此 robots.txt。对我来说,这通常与敏感内容无关,更多的是不希望公众通过搜索引擎访问这些区域。
  • 是的,我正在告诉您我被告知的内容...无论如何,如果答案是您正在寻找的答案,请单击“接受”并谢谢! ;)
  • 我会接受您的回复,因为它回答了我最初的问题。但是,在我的选择中,您的回答也包含不一定好的建议,也没有证据支持。
猜你喜欢
  • 1970-01-01
  • 2011-10-26
  • 1970-01-01
  • 2013-01-04
  • 2012-07-13
  • 2017-11-12
  • 1970-01-01
  • 2014-03-30
  • 1970-01-01
相关资源
最近更新 更多