【问题标题】:Crawler adds parameter from url to links爬虫将参数从 url 添加到链接
【发布时间】:2013-04-02 15:57:48
【问题描述】:

我尝试了两种不同的网络爬虫(Sistrix 和http://ssitemap.com)。两个爬虫都报告了有关 //?katID=12 等 URL 重复内容的错误。

事实证明,如果爬虫调用 url /projekte/index.php?katID=12,它会找到 <a href="/">Home</a> 并将其添加为指向 /?katID=12 的链接。看起来像来自 url ?katID=12 的参数被添加到页面上没有参数的每个链接。

如果我使用浏览器或 wget,我会根据需要看到指向 / 的简单 html 链接。

我做错了吗?服务器配置?

这是爬虫中的错误还是功能?

【问题讨论】:

  • 您是否尝试联系那些爬虫的支持? wget --recursive 也会发生这种情况吗?
  • 您是否验证了?katID=12 确实添加到每个链接中而没有参数?例如通过添加链接到/foo/bar 等等?
  • wget --recursive 工作正常。是的,我确实通过爬虫返回的链接列表进行了验证。
  • 那么 Sistrix 支持就是要走的路。

标签: php http parameters apache2 web-crawler


【解决方案1】:

我在每个页面都添加了<link rel="canonical" href="...">,以帮助爬虫识别相同的页面。

另见http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394

【讨论】:

    猜你喜欢
    • 2010-11-10
    • 1970-01-01
    • 2023-04-04
    • 2012-09-09
    • 1970-01-01
    • 1970-01-01
    • 2016-05-26
    • 2013-11-23
    • 2010-12-03
    相关资源
    最近更新 更多