【问题标题】:Page disallow in robots.txt but indexed by Google. How it is possible?robots.txt 中不允许的页面,但已被 Google 编入索引。怎么可能?
【发布时间】:2019-07-03 05:54:30
【问题描述】:

我的网站在 Google Search Console 中面临覆盖问题。在 GSC 中查看 Google 的以下消息:

已编入索引,但已被 robots.txt 阻止

我在 robots.txt 中不允许我的帐户页面 (https://www.joujou.com.au/account/),但它已被 Google 编入索引。如果 robots.txt 文件中已禁止该页面,是否可以将该页面编入 Google 索引?

【问题讨论】:

    标签: google-search robots.txt


    【解决方案1】:

    Robots.txt 只是阻止 Googlebot 查看页面内容。但是,如果有人链接到您的网页,即使 Google 没有看到内容,Google 也知道该目标 URL 处有一个网页。

    如果有足够多的人链接到该页面,Google 可能会决定将其添加并显示在索引中。很多时候,Google 会从链接到该网页的内容和链接的锚文本中收集该网页的上下文。

    如果您确实不希望某个网址出现在 Google 索引中,有 2 种建议方法。

    1. 使用 NOINDEX 命令将robots meta tag 添加到页面。 注意:您必须允许 Google 抓取 URL 才能看到 NOINDEX 命令。因此,您必须撤消 robots.txt 文件中的 disallow 命令
    2. 向页面添加 HTTP 基本身份验证

    这两种方法都可以确保 Google 不会将网址添加到索引中。不过,Google 仍会不时抓取该网址。

    有关更多上下文,Google 代表John Mueller 最近说过这个on Twitter

    ... robots.txt 肯定会阻止抓取内容(如果 不允许),但不一定是 URL 的索引。 [然而,]没有 内容,很难排名

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-02-27
      • 1970-01-01
      • 2021-07-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多