【问题标题】:Site appearing on Google SERP in spite of proper robots.txt configuration尽管 robots.txt 配置正确,但网站仍显示在 Google SERP 上
【发布时间】:2016-10-17 11:20:50
【问题描述】:

我有一个 ExpressJS Web 应用程序,用于内部用途,我不希望 Google 为其编制索引。所以我实现了以下路线:

app.get('/robots.txt', function(req,res) {
    res.set('Content-Type', 'text/plain');
    res.send('User-agent: *\nDisallow: /');
}

我通过点击 URL 并检查响应来验证它工作正常,这是

User-agent: *
Disallow: /

尽管如此,当我搜索网站标题时,我可以在 Google 上看到我的页面结果。该应用程序已上线一年左右,因此无法缓存结果。发生这种情况还有其他可能的原因吗?有什么方法可以解决吗?

【问题讨论】:

  • 难道这些你不想让谷歌索引的页面有安全性吗?如果是这样,谷歌不能索引安全页面,因为你必须登录。that is used for internal purposes 给我这句话,确实会告诉我您需要某种身份验证。
  • 是的,他们有 OAuth2 身份验证。登录页面是被索引的页面
  • 如果它是内部的,并且您想强制它是内部的。您可以检查 IP 地址。无论您在网站上放置什么元标记,都无法保证知道您的页面不会被索引。 Google 可能会遵守 robots.txt 和 meta name,但不能保证其他索引服务也会这样做。
  • You can check the IP address你能解释一下吗
  • req 对象可以访问远程的 IP 地址。 req.connection.remoteAddress,请注意,如果您在代理后面运行,请确保您的 express 应用启用了trust proxy,否则您将获得代理的 IP。

标签: javascript html seo google-search robots.txt


【解决方案1】:

https://webmasters.stackexchange.com/questions/54879/does-google-ignore-robots-txt

Google 仍会看到被 robots.txt 屏蔽的网站,甚至可能会在搜索结果中列出这些网站。

当整个域/子域被阻止时尤其如此。 Google 将列出这些链接以及文本 A description for this result is not available because of this site's robots.txt – 通过https://support.google.com/webmasters/answer/156449 的链接了解更多信息。

在您的页面输出中添加<meta name="robots" content="noindex, nofollow">

编辑 来自 cmets 的讨论:

如果您允许包含 robots.txt 的网页,但使用元标记阻止将其编入索引,Googlebot 将访问该网页,读取元标记,然后不将其编入索引。

所以为了防止谷歌抓取你的网站:在 robots.txt 中使用拒绝,不需要元标记。
如果有指向您网站的外部链接:在 robots.txt 中使用 allow,在出现在 google 中的那些页面上使用 noindex,nofollow。

如何轻松查看谷歌在你身上有哪些网页:

使用site:stackoverflow.com作为搜索查询,谷歌将基本上列出它已索引的该网站的所有页面。

要详细了解 Google 如何抓取您的网页: https://support.google.com/webmasters/topic/4617736?hl=en&ref_topic=4589290

另外,请记住,谷歌并不是唯一的搜索引擎。有 bing、yahoo、baidu 和大量其他搜索引擎,但并非所有搜索引擎都能很好地使用元标记或 robots.txt,有些甚至假装是另一个搜索引擎,这样他们的抓取不会被阻止。

【讨论】:

  • 啊机器人元没有设置。我会设置的。感谢您的回答。根据您的经验,索引在 Google 上更新需要多长时间?
  • 取决于您被抓取的频率。如果您的网站经常更新并且有许多指向您的外部链接,则在一天之内。如果您是网络上的隐藏网站,则最多需要一两个月。
  • 这是一个很好的解决方案,但我想补充一点,如果您添加机器人元标记,您还需要在 robots.txt 中取消阻止该站点。否则,Google 将永远不会抓取页面,因此永远不会看到机器人元标记。
  • @plasticinsect 你的意思是说我应该删除我对robots.txt的限制吗?我应该让谷歌进来吗?
  • 没关系,我找到了你的意思:If you allow a page with robots.txt but block it from being indexed using a meta tag, Googlebot will access the page, read the meta tag, and subsequently not index it.
猜你喜欢
  • 2014-09-26
  • 2023-04-05
  • 2015-08-08
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2019-04-26
相关资源
最近更新 更多