【问题标题】:Why would Google (or Googlebot) index a page returning a 500 error?为什么 Google(或 Googlebot)会索引返回 500 错误的页面?
【发布时间】:2009-08-20 21:22:05
【问题描述】:

Googlebot 偶尔会使用错误的查询字符串参数为我们的某个网站编制索引。我不确定它是如何获取此查询字符串参数的(似乎没有任何网站使用错误链接链接到我们,并且我们网站中的任何内容都没有插入错误值)。如我们所料,bad 参数会导致网站抛出 500 错误。

我的印象是 Google 不会索引返回 500 错误的页面,但事实证明确实如此。所以现在我有两个问题:

1) 为什么 Googlebot 会随机插入错误的查询字符串值? (我并不真正关心这个问题的答案,但如果我们能做点什么来避免这种情况,它就会解决我们的问题。)

2) 为什么 Google 要将返回 500 错误的页面编入索引?

以下是 Googlebot 创建并已被 Google 编入索引的错误链接之一:

http://www.pbs.org/teacherline/catalog/browse/?sa=4&gb=baqhuxts&gb=20&gb=21&num=20&page=2&js=0&sa=1

错误的参数是 gb=baqhuxts。参数“gb”应为整数。如果您从查询字符串中删除该参数,您应该会看到一个漂亮的目录页面。

关于 nofollow 和 robots.txt 解决方案:[已编辑]

我现在意识到我是个白痴,并放置了一个元标记告诉搜索机器人索引页面。那是一件愚蠢的事情。我正在删除那些。 W-(

如果你search on Google for 'baqhuxts' 你会发现它已经用这个错误的参数索引了 10 个页面。但是这些页面中的每一个都返回 500 错误。有没有人知道为什么 Google 认为这些是有效的索引页面?

【问题讨论】:

  • 查询字符串中具体有什么错误?也就是说,要获得有效的结果,必须在该 URI 中进行哪些更改?这可能有助于解释发生了什么。
  • 好消息@voteydisciple。我添加了对查询字符串中的错误的解释。 'gb' 参数应为整数。
  • 网站底部版权回归一年。
  • 既然你已经把这个网址放到了这个页面上,谷歌就会爬遍它!

标签: indexing seo search-engine googlebot


【解决方案1】:

这可能是因为您告诉 Google 通过在您的元标记中添加它来索引它:

<meta name="robots" content="index,follow">

尝试删除它! :)

【讨论】:

    【解决方案2】:

    不幸的是,我只知道#1 的答案:

    google 会抓取这样奇怪的页面,因为使用 google 工具栏的人会访问不存在的页面,并且他们的浏览信息会传输给 google。这就是为什么您经常会发现没有任何业务被索引的页面,例如,没有从任何地方链接到的 phpmyadmin 页面。

    【讨论】:

    • 我知道你所描述的事情发生了,这确实是一件棘手的事情。但请参阅更新后的问题 - 我不想对目录 URL 实施全面禁止。或者你是说我的 500 页面应该有一个不允许机器人索引的元标记?
    猜你喜欢
    • 1970-01-01
    • 2010-12-30
    • 1970-01-01
    • 1970-01-01
    • 2017-06-23
    • 1970-01-01
    • 2019-10-26
    • 2019-08-06
    • 2011-07-05
    相关资源
    最近更新 更多