robots.txt 中不允许的页面，但已被 Google 编入索引。怎么可能？答案

【问题标题】：Page disallow in robots.txt but indexed by Google. How it is possible?robots.txt 中不允许的页面，但已被 Google 编入索引。怎么可能？
【发布时间】：2019-07-03 05:54:30
【问题描述】：

我的网站在 Google Search Console 中面临覆盖问题。在 GSC 中查看 Google 的以下消息：

已编入索引，但已被 robots.txt 阻止

我在 robots.txt 中不允许我的帐户页面 (https://www.joujou.com.au/account/)，但它已被 Google 编入索引。如果 robots.txt 文件中已禁止该页面，是否可以将该页面编入 Google 索引？

【问题讨论】：

标签： google-search robots.txt

【解决方案1】：

Robots.txt 只是阻止 Googlebot 查看页面内容。但是，如果有人链接到您的网页，即使 Google 没有看到内容，Google 也知道该目标 URL 处有一个网页。

如果有足够多的人链接到该页面，Google 可能会决定将其添加并显示在索引中。很多时候，Google 会从链接到该网页的内容和链接的锚文本中收集该网页的上下文。

如果您确实不希望某个网址出现在 Google 索引中，有 2 种建议方法。

使用 NOINDEX 命令将robots meta tag 添加到页面。 注意：您必须允许 Google 抓取 URL 才能看到 NOINDEX 命令。因此，您必须撤消 robots.txt 文件中的 disallow 命令
向页面添加 HTTP 基本身份验证

这两种方法都可以确保 Google 不会将网址添加到索引中。不过，Google 仍会不时抓取该网址。

有关更多上下文，Google 代表John Mueller 最近说过这个on Twitter。

... robots.txt 肯定会阻止抓取内容（如果不允许），但不一定是 URL 的索引。 [然而，]没有内容，很难排名

【讨论】：