尽管 robots.txt 配置正确，但网站仍显示在 Google SERP 上答案

【问题标题】：Site appearing on Google SERP in spite of proper robots.txt configuration尽管 robots.txt 配置正确，但网站仍显示在 Google SERP 上
【发布时间】：2016-10-17 11:20:50
【问题描述】：

我有一个 ExpressJS Web 应用程序，用于内部用途，我不希望 Google 为其编制索引。所以我实现了以下路线：

app.get('/robots.txt', function(req,res) {
    res.set('Content-Type', 'text/plain');
    res.send('User-agent: *\nDisallow: /');
}

我通过点击 URL 并检查响应来验证它工作正常，这是

User-agent: *
Disallow: /

尽管如此，当我搜索网站标题时，我可以在 Google 上看到我的页面结果。该应用程序已上线一年左右，因此无法缓存结果。发生这种情况还有其他可能的原因吗？有什么方法可以解决吗？

【问题讨论】：

难道这些你不想让谷歌索引的页面有安全性吗？如果是这样，谷歌不能索引安全页面，因为你必须登录。that is used for internal purposes 给我这句话，确实会告诉我您需要某种身份验证。
是的，他们有 OAuth2 身份验证。登录页面是被索引的页面
如果它是内部的，并且您想强制它是内部的。您可以检查 IP 地址。无论您在网站上放置什么元标记，都无法保证知道您的页面不会被索引。 Google 可能会遵守 robots.txt 和 meta name，但不能保证其他索引服务也会这样做。
You can check the IP address你能解释一下吗
req 对象可以访问远程的 IP 地址。 req.connection.remoteAddress，请注意，如果您在代理后面运行，请确保您的 express 应用启用了trust proxy，否则您将获得代理的 IP。

标签： javascript html seo google-search robots.txt

【解决方案1】：

https://webmasters.stackexchange.com/questions/54879/does-google-ignore-robots-txt

Google 仍会看到被 robots.txt 屏蔽的网站，甚至可能会在搜索结果中列出这些网站。

当整个域/子域被阻止时尤其如此。 Google 将列出这些链接以及文本 A description for this result is not available because of this site's robots.txt – 通过https://support.google.com/webmasters/answer/156449 的链接了解更多信息。

在您的页面输出中添加<meta name="robots" content="noindex, nofollow">。

编辑来自 cmets 的讨论：

如果您允许包含 robots.txt 的网页，但使用元标记阻止将其编入索引，Googlebot 将访问该网页，读取元标记，然后不将其编入索引。

所以为了防止谷歌抓取你的网站：在 robots.txt 中使用拒绝，不需要元标记。
如果有指向您网站的外部链接：在 robots.txt 中使用 allow，在出现在 google 中的那些页面上使用 noindex，nofollow。

如何轻松查看谷歌在你身上有哪些网页：

使用site:stackoverflow.com作为搜索查询，谷歌将基本上列出它已索引的该网站的所有页面。

要详细了解 Google 如何抓取您的网页： https://support.google.com/webmasters/topic/4617736?hl=en&ref_topic=4589290

另外，请记住，谷歌并不是唯一的搜索引擎。有 bing、yahoo、baidu 和大量其他搜索引擎，但并非所有搜索引擎都能很好地使用元标记或 robots.txt，有些甚至假装是另一个搜索引擎，这样他们的抓取不会被阻止。

【讨论】：

啊机器人元没有设置。我会设置的。感谢您的回答。根据您的经验，索引在 Google 上更新需要多长时间？
取决于您被抓取的频率。如果您的网站经常更新并且有许多指向您的外部链接，则在一天之内。如果您是网络上的隐藏网站，则最多需要一两个月。
这是一个很好的解决方案，但我想补充一点，如果您添加机器人元标记，您还需要在 robots.txt 中取消阻止该站点。否则，Google 将永远不会抓取页面，因此永远不会看到机器人元标记。
@plasticinsect 你的意思是说我应该删除我对robots.txt的限制吗？我应该让谷歌进来吗？
没关系，我找到了你的意思：If you allow a page with robots.txt but block it from being indexed using a meta tag, Googlebot will access the page, read the meta tag, and subsequently not index it.