SEO - robots.txt 不允许文件夹答案

【问题标题】：SEO - robots.txt disallowing a folderSEO - robots.txt 不允许文件夹
【发布时间】：2016-09-16 12:37:31
【问题描述】：

robots.txt 中的这两行是否会成功阻止 google 索引具有类似以下网址的页面：http://www.domain-name.com/product-tag/...

User-agent: *
Disallow: /product-tag/
Disallow: /product-tag/*

因为我在谷歌索引这些页面时遇到问题，我找不到其他方法来阻止它。

robots.txt 中的更改需要多长时间才能在搜索引擎中看到？

【问题讨论】：

1.是的（但你可以去掉最后一行）。 2. 与 Google 重新索引您的页面所需的时间一样多。你可能想注册google.com/webmasters/tools/home（你也许可以在那里申请重新索引，我不记得了）
相关：stackoverflow.com/q/37309249/3597276

【解决方案1】：

Robots.txt 将阻止 Google 抓取您的网站。不一定来自索引它。如果它已经索引它，特别是不会删除它。

您应该将meta noindex 标记添加到页面上的 HEAD HTML，然后允许 Google 重新抓取页面以查看此内容（即使用 robots.txt 执行 NOT 阻止）。在所有页面都从 Google 中退出后（这可能需要一些时间），如果需要，您可以使用 robots.txt 阻止它。

robots.txt 的主要原因和好处是阻止 Google 浪费时间查看这些页面。每个网站都分配有抓取预算，因此 Google 每天只会重新索引一定数量的页面。所以如果它浪费了很多爬行对您不希望编入索引的页面进行预算，那么它就不会尽可能地使您确实希望编入索引的页面保持最新。

此外，您不应依赖 robots.txt 来隐藏敏感文件，因为某些爬虫（尽管不是 Google）可能会忽略它。

最后，如果您的产品已经被索引，并且这些是重复的页面，这就是您不希望它们被索引的原因，那么您可以在 HEAD 代码中使用rel canonical link 来指向真实页面而不是 noindex。

【讨论】：