如何解决“Googlebot 无法访问您的网站”问题？答案

【问题标题】：How can i fix "Googlebot can't access your site" issue?如何解决“Googlebot 无法访问您的网站”问题？
【发布时间】：2014-10-10 22:13:12
【问题描述】：

我只是不断收到关于

的消息

“在过去 24 小时内，Googlebot 在尝试访问您的 robots.txt 时遇到了 1 个错误。为确保我们没有抓取该文件中列出的任何网页，我们推迟了抓取。您网站的整体 robots.txt 错误率为 100.0%。您可以在网站管理员工具中查看有关这些错误的更多详细信息。 "

我搜索并告诉我在我的网站上添加 robots.txt

当我在 Google 网站管理员工具上测试 robots.txt 时，无法获取 robots.txt。

我想也许 robots.txt 被我的网站屏蔽了，但是当我测试时它说 GWT 允许。

'http://momentcamofficial.com/robots.txt' 这是 robots.txt 的内容：用户代理： * 禁止：

那么为什么 Google 无法获取 robots.txt？我错过了什么……谁能帮帮我？？？

【问题讨论】：

标签： search gwt robots.txt

【解决方案1】：

您的 robots.txt 文件中的内容有误，请将其更改为：

User-agent: *
Allow: /

并确保每个人都有读取文件的权限。

【讨论】：

是的，即使在允许后我也收到相同的消息，请检查我的robots.txt。
您是否有理由像您在 robots.txt 中那样列出所有特定的爬虫？否则，您可以尝试将所有内容删除到“用户代理：*”，它应该可以工作。

【解决方案2】：

在 Googlebot 抓取您的网站之前，它会访问您的 robots.txt 文件以确定您的网站是否阻止 Google 抓取任何网页或网址。如果您的 robots.txt 文件存在但无法访问（在其他换句话说，如果它不返回 200 或 404 HTTP 状态码），我们将推迟我们的抓取，而不是冒险抓取您不想要的 URL 爬行。发生这种情况时，Googlebot 将返回您的网站并在我们成功访问您的 robots.txt 文件后立即抓取它。

如您所知，robots.txt 是可选的，因此您无需创建，只需确保您的主机仅发送 200 或 404 http 状态即可。

【讨论】：

【解决方案3】：

我的情况是 Google Bot 无法获取，但我可以在浏览器中看到有效的 robots.txt。

问题原来是我将整个网站（包括 robots.txt ）重定向到 https，而 Google 似乎不喜欢这样。所以我从重定向中排除了 robots.txt。

RewriteEngine On
RewriteCond %{HTTPS} off
RewriteCond %{REQUEST_FILENAME} !robots\.txt
RewriteRule (.*) https://%{HTTP_HOST}%{REQUEST_URI} [R=301,L]

关于我的blog的更多信息

【讨论】：

有趣。 6 月 24 日，我也开始收到这些消息。我没有 robots.txt 文件，因为我想要完整的站点搜索……但由于这些消息，我创建了一个。我一直试图找到一个似乎没人知道的解决方案。去年我确实将此站点转换为 https 并同样重定向了整个站点......所以这是有道理的。但我想知道为什么它现在会成为一个问题？

【解决方案4】：

当“yandex”抓取网站以及一些网站检查器时，我遇到了这个错误。在多次检查后，我复制了一份 robots.txt 并将其命名为 robot.txt。现在“yandex”和工具都可以工作了。

【讨论】：