【发布时间】:2011-02-04 21:55:31
【问题描述】:
我需要提供一个基本 URL(例如 http://www.wired.com),并且需要爬取整个站点以输出一组页面(脱离基本 URL)。有没有图书馆可以解决这个问题?
谢谢。
【问题讨论】:
标签: java web-scraping
我需要提供一个基本 URL(例如 http://www.wired.com),并且需要爬取整个站点以输出一组页面(脱离基本 URL)。有没有图书馆可以解决这个问题?
谢谢。
【问题讨论】:
标签: java web-scraping
Web Harvest我已经用过几次了,对于网页抓取来说还是不错的。
Web-Harvest 是开源 Web 数据 用Java编写的提取工具。它 提供一种收集所需网络的方法 页面并从中提取有用的数据 他们。为了做到这一点,它 利用成熟的技术 text/xml 和技术 诸如 XSLT、XQuery 和 常用表达。网络收获 主要关注基于 HTML/XML 的 web 仍然占绝大多数的网站 的 Web 内容。另一方面, 它可以很容易地补充 自定义 Java 库,以便 增强其提取能力。
或者,您可以使用JTidy 等工具滚动您自己的网络抓取工具,首先将HTML 文档转换为XHTML,然后使用XPath 处理您需要的信息。例如,从http://www.wired.com 中提取所有超链接的very naïve XPath 表达式类似于//a[contains(@href,'wired')]/@href。您可以在此answer 中找到此方法的一些示例代码,以解决类似的问题。
【讨论】:
“简单”在这里可能不是一个相关的概念。这是一项复杂的任务。我推荐nutch。
【讨论】: