【问题标题】:Sub-domain vs Sub-directory to block from crawlers要阻止爬虫的子域与子目录
【发布时间】:2013-01-04 04:27:06
【问题描述】:

我用谷歌搜索了很多,阅读了很多文章,但反应不一。

如果我想阻止我网站的某个部分被搜索引擎索引,我有点困惑哪个是更好的选择。基本上我对我的网站进行了很多更新,也为客户设计,我不希望我上传的所有“测试数据”都被索引,以避免重复的内容问题。

  1. 我应该使用子域并阻止整个子域

  2. 创建一个子目录并使用robots.txt阻止它。

我是网页设计的新手,对使用子域有点不安全(在某处读到它是一个有点高级的过程,即使是一个小错误也可能产生很大的后果,此外,Matt Cutts 也提到了类似的东西(@ 987654321@):

“我建议您使用子目录,直到您开始感觉很漂亮 对您网站的架构充满信心。届时,你将 更好地为您自己的网站做出正确的决定。”

但另一方面,我对使用 robots.txt 以及任何人都可以访问该文件犹豫不决。

两者的优缺点是什么?

现在我的印象是 Google 对两者的处理方式相似,最好使用 robots.txt 的子目录,但在“冒险”之前我想征求第二意见。

【问题讨论】:

  • 如果你把它放到网上假设有人会复制它。 Robots.txt 是可选的 - 不道德的搜索引擎可以而且只会忽略它。如果它必须是部署站点的一部分,请将用户名/密码放在您的“测试区域”上。

标签: seo indexing search-engine web-crawler


【解决方案1】:

要么您要求机器人不要为您的内容编制索引(→ robots.txt)您将所有人拒之门外(→ 密码保护)。

对于此决定,您使用单独的子域还是文件夹都无关紧要。您可以同时使用 robots.txt 或密码保护。请注意,robots.txt 必须始终放在文档根目录中。

使用 robots.txt 不提供任何保证,这只是一个礼貌的请求。有礼貌的机器人会尊重它,而其他机器人则不会。人类用户仍然可以访问您的“不允许”页面。即使是那些尊重您的 robots.txt(例如 Google)的机器人也可能在其搜索中链接到您的“不允许”内容(但它们不会索引内容)。

使用登录机制可以保护您的网页免受所有机器人和访问者的侵害。

【讨论】:

  • 谢谢你提供了很多信息,我想我会选择密码保护。
猜你喜欢
  • 2015-07-30
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-01-25
  • 2014-11-13
  • 2012-08-05
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多