Googlebot：指向相同内容的不同网址过多答案

【问题标题】：Googlebot: Too many distinct URLs pointing to identical contentGooglebot：指向相同内容的不同网址过多
【发布时间】：2009-06-04 07:54:06
【问题描述】：

我们网站的一个部分提供分页的随机内容。新用户第一次访问该站点时，会为她分配一个新的随机种子，该种子会传入 URL 并用于持久性存储在 cookie 中。问题是 URL 中的种子混淆了 Googlebot（和其他索引服务）；它抱怨有太多的 URL 指向相同的内容。我们有可能不在 URL 中传递种子，但即使我们只使用 cookie，在我看来，在某些时候我们必须决定访问者是索引蜘蛛还是人类以非随机方式呈现内容。

我的主要问题是：在这种情况下，检测最常见的索引蜘蛛并以非随机方式为它们提供内容会有多糟糕？我知道搜索优化的第一条规则是不优化，如果有的话，为用户优化并确保每个人的内容都是一样的。但在这种情况下，我们实际上不会更改内容或隐藏任何内容。

有人遇到过同样的问题吗？处理此问题的最佳做法是什么？

【问题讨论】：

URL 的种子部分如何？是查询参数吗？在这种情况下，蜘蛛应该忽略它们。它是路径的一部分吗？重新设计:)
是的，它是一个查询参数。我不确定查询参数是否被忽略。您能否指出一些解释或确认的来源？

标签： url seo

【解决方案1】：

这取决于站点结构，但您可能会受益于仅编辑 robots.txt 文件以使漫游器远离可能令人困惑的 URL。另一种选择是生成Google Sitemap（当我们说搜索引擎时，我们通常指的是Google）。

几个链接：

【讨论】：

【解决方案2】：

我的主要问题是：在这种情况下，检测最常见的索引蜘蛛并以非随机方式为它们提供内容会有多糟糕？

大多数（合法/搜索引擎）机器人都正确设置了他们的用户代理，因此很容易做这样的事情，你只需要检查用户代理 HTTP 请求字段并做出正确的反应......

这个解决方案是否最好，我没有资格争论。

List of User Agents.

【讨论】：

【解决方案3】：

您正在使用查询参数模拟 cookie 行为。我虽然这种做法很久以前就结束了。现在的最佳做法是为需要会话的用户使用 cookie，并让其他用户匿名浏览您的网站。

您正在运行的网站有很多不希望被跟踪的偏执用户，因此您关闭了 cookie。他们可能也不想被 url 跟踪。

如果用户登录，他们必须启用 cookie，没有例外。如果用户未登录，他们可能会查看您的内容，但不会被跟踪。

在您的网址中包含会话的一个问题是，用户现在复制和粘贴这些内容的次数比以前多得多，因此即使您检测到搜索引擎，您最终也可能会得到包含此会话信息的链接。

如果您真的想解决问题，添加 xml 站点地图和蜘蛛检测可能是可以接受的解决方案，但蜘蛛检测需要大量工作才能保持最新状态。

“为什么我们不包含在 Bing 中？” - 哦，我忘了添加那个搜索引擎。

“为什么我们不再包含在 Google 中” - 哦，我不知道 google 有一个新的数据中心。

【讨论】：

正如我上面所说，我们可以在 URL 中没有种子，因为无论如何我们都将它保存在 cookie 中。由于历史原因，它更多地位于 URL 中（它首先存在），我想现在保留它的原因是允许用户相互发送指向相同内容的链接。但同样，这并不重要。
那么查询参数改变了页面上的一些内容？它不仅仅是为了跟踪用户。这可能是搜索引擎无法将查询参数识别为会话参数的原因。检测为会话的查询参数通常被忽略。我认为放弃这种遗留行为是一个很好的商业决定。如果您决定保留网址，那么我会尝试使用 xml 站点地图解决方案。
是的，我同意 - 我们可能会这样做。但这并不能解决原来的问题。我们需要以某种方式检测蜘蛛并确保它们获得非随机内容。