【问题标题】:Page disallow in robots.txt but indexed by Google. How it is possible?robots.txt 中不允许的页面,但已被 Google 编入索引。怎么可能?
【发布时间】:2019-07-03 05:54:30
【问题描述】:
我的网站在 Google Search Console 中面临覆盖问题。在 GSC 中查看 Google 的以下消息:
已编入索引,但已被 robots.txt 阻止
我在 robots.txt 中不允许我的帐户页面 (https://www.joujou.com.au/account/),但它已被 Google 编入索引。如果 robots.txt 文件中已禁止该页面,是否可以将该页面编入 Google 索引?
【问题讨论】:
标签:
google-search
robots.txt
【解决方案1】:
Robots.txt 只是阻止 Googlebot 查看页面内容。但是,如果有人链接到您的网页,即使 Google 没有看到内容,Google 也知道该目标 URL 处有一个网页。
如果有足够多的人链接到该页面,Google 可能会决定将其添加并显示在索引中。很多时候,Google 会从链接到该网页的内容和链接的锚文本中收集该网页的上下文。
如果您确实不希望某个网址出现在 Google 索引中,有 2 种建议方法。
- 使用 NOINDEX 命令将robots meta tag 添加到页面。 注意:您必须允许 Google 抓取 URL 才能看到 NOINDEX 命令。因此,您必须撤消 robots.txt 文件中的 disallow 命令
- 向页面添加 HTTP 基本身份验证
这两种方法都可以确保 Google 不会将网址添加到索引中。不过,Google 仍会不时抓取该网址。
有关更多上下文,Google 代表John Mueller 最近说过这个on Twitter。
... robots.txt 肯定会阻止抓取内容(如果
不允许),但不一定是 URL 的索引。 [然而,]没有
内容,很难排名