【问题标题】:SEO - robots.txt disallowing a folderSEO - robots.txt 不允许文件夹
【发布时间】:2016-09-16 12:37:31
【问题描述】:

robots.txt 中的这两行是否会成功阻止 google 索引具有类似以下网址的页面:http://www.domain-name.com/product-tag/...

User-agent: *
Disallow: /product-tag/
Disallow: /product-tag/*

因为我在谷歌索引这些页面时遇到问题,我找不到其他方法来阻止它。

robots.txt 中的更改需要多长时间才能在搜索引擎中看到?

【问题讨论】:

标签: seo robots.txt


【解决方案1】:

Robots.txt 将阻止 Google 抓取您的网站。不一定来自索引它。如果它已经索引它,特别是不会删除它。

您应该将meta noindex 标记添加到页面上的 HEAD HTML,然后允许 Google 重新抓取页面以查看此内容(即使用 robots.txt 执行 NOT 阻止)。在所有页面都从 Google 中退出后(这可能需要一些时间),如果需要,您可以使用 robots.txt 阻止它。

robots.txt 的主要原因和好处是阻止 Google 浪费时间查看这些页面。每个网站都分配有抓取预算,因此 Google 每天只会重新索引一定数量的页面。所以如果它浪费了很多爬行 对您不希望编入索引的页面进行预算,那么它就不会尽可能地使您确实希望编入索引的页面保持最新。

此外,您不应依赖 robots.txt 来隐藏敏感文件,因为某些爬虫(尽管不是 Google)可能会忽略它。

最后,如果您的产品已经被索引,并且这些是重复的页面,这就是您不希望它们被索引的原因,那么您可以在 HEAD 代码中使用rel canonical link 来指向真实页面而不是 noindex。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-08-10
    • 2016-03-25
    • 2013-01-26
    • 2023-04-07
    相关资源
    最近更新 更多