寻找一个简单的 Java 蜘蛛 [关闭]答案

【问题标题】：Looking for a simple Java spider [closed]寻找一个简单的 Java 蜘蛛 [关闭]
【发布时间】：2011-02-04 21:55:31
【问题描述】：

我需要提供一个基本 URL（例如 http://www.wired.com），并且需要爬取整个站点以输出一组页面（脱离基本 URL）。有没有图书馆可以解决这个问题？

谢谢。

【问题讨论】：

【解决方案1】：

Web Harvest我已经用过几次了，对于网页抓取来说还是不错的。

Web-Harvest 是开源 Web 数据用Java编写的提取工具。它提供一种收集所需网络的方法页面并从中提取有用的数据他们。为了做到这一点，它利用成熟的技术 text/xml 和技术诸如 XSLT、XQuery 和常用表达。网络收获主要关注基于 HTML/XML 的 web 仍然占绝大多数的网站的 Web 内容。另一方面，它可以很容易地补充自定义 Java 库，以便增强其提取能力。

或者，您可以使用JTidy 等工具滚动您自己的网络抓取工具，首先将HTML 文档转换为XHTML，然后使用XPath 处理您需要的信息。例如，从http://www.wired.com 中提取所有超链接的very naïve XPath 表达式类似于//a[contains(@href,'wired')]/@href。您可以在此answer 中找到此方法的一些示例代码，以解决类似的问题。

【讨论】：

感谢您提供此资源。我能够成功地适应它。但是，如果网页响应结果为 500，则爬虫失败（例如 - allure.com/magazine/flipbook）输出“在文档的元素内容中发现无效的 XML 字符（Unicode：0x0）”。对此错误消息有何想法？

【解决方案2】：

“简单”在这里可能不是一个相关的概念。这是一项复杂的任务。我推荐nutch。

【讨论】：