爬虫将参数从 url 添加到链接

【问题标题】：Crawler adds parameter from url to links爬虫将参数从 url 添加到链接
【发布时间】：2013-04-02 15:57:48
【问题描述】：

我尝试了两种不同的网络爬虫（Sistrix 和http://ssitemap.com）。两个爬虫都报告了有关 / 和 /?katID=12 等 URL 重复内容的错误。

事实证明，如果爬虫调用 url /projekte/index.php?katID=12，它会找到 <a href="/">Home</a> 并将其添加为指向 /?katID=12 的链接。看起来像来自 url ?katID=12 的参数被添加到页面上没有参数的每个链接。

如果我使用浏览器或 wget，我会根据需要看到指向 / 的简单 html 链接。

我做错了吗？服务器配置？

这是爬虫中的错误还是功能？

【问题讨论】：

您是否尝试联系那些爬虫的支持？ wget --recursive 也会发生这种情况吗？
您是否验证了?katID=12 确实添加到每个链接中而没有参数？例如通过添加链接到/foo 和/bar 等等？
wget --recursive 工作正常。是的，我确实通过爬虫返回的链接列表进行了验证。
那么 Sistrix 支持就是要走的路。

标签： php http parameters apache2 web-crawler

【解决方案1】：

我在每个页面都添加了<link rel="canonical" href="...">，以帮助爬虫识别相同的页面。

另见http://support.google.com/webmasters/bin/answer.py?hl=en&answer=139394

【讨论】：

猜你喜欢

2010-11-10
1970-01-01
2023-04-04
2012-09-09
1970-01-01
1970-01-01
2016-05-26
2013-11-23
2010-12-03

相关资源

下载 2023-02-11
下载 2022-12-17
下载 2022-12-25

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode