【发布时间】:2013-04-02 15:57:48
【问题描述】:
我尝试了两种不同的网络爬虫(Sistrix 和http://ssitemap.com)。两个爬虫都报告了有关 / 和 /?katID=12 等 URL 重复内容的错误。
事实证明,如果爬虫调用 url /projekte/index.php?katID=12,它会找到 <a href="/">Home</a> 并将其添加为指向 /?katID=12 的链接。看起来像来自 url ?katID=12 的参数被添加到页面上没有参数的每个链接。
如果我使用浏览器或 wget,我会根据需要看到指向 / 的简单 html 链接。
我做错了吗?服务器配置?
这是爬虫中的错误还是功能?
【问题讨论】:
-
您是否尝试联系那些爬虫的支持?
wget --recursive也会发生这种情况吗? -
您是否验证了
?katID=12确实添加到每个链接中而没有参数?例如通过添加链接到/foo和/bar等等? -
wget --recursive工作正常。是的,我确实通过爬虫返回的链接列表进行了验证。 -
那么 Sistrix 支持就是要走的路。
标签: php http parameters apache2 web-crawler