【问题标题】:How can i fix "Googlebot can't access your site" issue?如何解决“Googlebot 无法访问您的网站”问题?
【发布时间】:2014-10-10 22:13:12
【问题描述】:

我只是不断收到关于

的消息

“在过去 24 小时内,Googlebot 在尝试访问您的 robots.txt 时遇到了 1 个错误。为确保我们没有抓取该文件中列出的任何网页,我们推迟了抓取。您网站的整体 robots.txt 错误率为 100.0%。 您可以在网站管理员工具中查看有关这些错误的更多详细信息。 "

我搜索并告诉我在我的网站上添加 robots.txt

当我在 Google 网站管理员工具上测试 robots.txt 时,无法获取 robots.txt。

我想也许 robots.txt 被我的网站屏蔽了,但是当我测试时它说 GWT 允许。

'http://momentcamofficial.com/robots.txt' 这是 robots.txt 的内容: 用户代理: * 禁止:

那么为什么 Google 无法获取 robots.txt?我错过了什么……谁能帮帮我???

【问题讨论】:

    标签: search gwt robots.txt


    【解决方案1】:

    您的 robots.txt 文件中的内容有误,请将其更改为:

    User-agent: *
    Allow: /
    

    并确保每个人都有读取文件的权限。

    【讨论】:

    • 是的,即使在允许后我也收到相同的消息,请检查我的robots.txt
    • 您是否有理由像您在 robots.txt 中那样列出所有特定的爬虫?否则,您可以尝试将所有内容删除到“用户代理:*”,它应该可以工作。
    【解决方案2】:

    在 Googlebot 抓取您的网站之前,它会访问您的 robots.txt 文件以 确定您的网站是否阻止 Google 抓取任何网页或 网址。如果您的 robots.txt 文件存在但无法访问(在其他 换句话说,如果它不返回 200 或 404 HTTP 状态码),我们将 推迟我们的抓取,而不是冒险抓取您不想要的 URL 爬行。发生这种情况时,Googlebot 将返回您的网站并 在我们成功访问您的 robots.txt 文件后立即抓取它。

    如您所知,robots.txt 是可选的,因此您无需创建,只需确保您的主机仅发送 200 或 404 http 状态即可。

    【讨论】:

      【解决方案3】:

      我的情况是 Google Bot 无法获取,但我可以在浏览器中看到有效的 robots.txt。

      问题原来是我将整个网站(包括 robots.txt )重定向到 https,而 Google 似乎不喜欢这样。所以我从重定向中排除了 robots.txt。

      RewriteEngine On
      RewriteCond %{HTTPS} off
      RewriteCond %{REQUEST_FILENAME} !robots\.txt
      RewriteRule (.*) https://%{HTTP_HOST}%{REQUEST_URI} [R=301,L]
      

      关于我的blog的更多信息

      【讨论】:

      • 有趣。 6 月 24 日,我也开始收到这些消息。我没有 robots.txt 文件,因为我想要完整的站点搜索……但由于这些消息,我创建了一个。我一直试图找到一个似乎没人知道的解决方案。去年我确实将此站点转换为 https 并同样重定向了整个站点......所以这是有道理的。但我想知道为什么它现在会成为一个问题?
      【解决方案4】:

      当“yandex”抓取网站以及一些网站检查器时,我遇到了这个错误。在多次检查后,我复制了一份 robots.txt 并将其命名为 robot.txt。现在“yandex”和工具都可以工作了。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2013-03-24
        • 2022-06-15
        • 2014-08-07
        • 1970-01-01
        • 2019-07-11
        • 2016-07-24
        • 2013-12-12
        • 1970-01-01
        相关资源
        最近更新 更多