【问题标题】:Looking for a simple Java spider [closed]寻找一个简单的 Java 蜘蛛 [关闭]
【发布时间】:2011-02-04 21:55:31
【问题描述】:

我需要提供一个基本 URL(例如 http://www.wired.com),并且需要爬取整个站点以输出一组页面(脱离基本 URL)。有没有图书馆可以解决这个问题?

谢谢。

【问题讨论】:

    标签: java web-scraping


    【解决方案1】:

    Web Harvest我已经用过几次了,对于网页抓取来说还是不错的。

    Web-Harvest 是开源 Web 数据 用Java编写的提取工具。它 提供一种收集所需网络的方法 页面并从中提取有用的数据 他们。为了做到这一点,它 利用成熟的技术 text/xml 和技术 诸如 XSLT、XQuery 和 常用表达。网络收获 主要关注基于 HTML/XML 的 web 仍然占绝大多数的网站 的 Web 内容。另一方面, 它可以很容易地补充 自定义 Java 库,以便 增强其提取能力。

    或者,您可以使用JTidy 等工具滚动您自己的网络抓取工具,首先将HTML 文档转换为XHTML,然后使用XPath 处理您需要的信息。例如,从http://www.wired.com 中提取所有超链接的very naïve XPath 表达式类似于//a[contains(@href,'wired')]/@href。您可以在此answer 中找到此方法的一些示例代码,以解决类似的问题。

    【讨论】:

    • 感谢您提供此资源。我能够成功地适应它。但是,如果网页响应结果为 500,则爬虫失败(例如 - allure.com/magazine/flipbook)输出“在文档的元素内容中发现无效的 XML 字符(Unicode:0x0)”。对此错误消息有何想法?
    【解决方案2】:

    “简单”在这里可能不是一个相关的概念。这是一项复杂的任务。我推荐nutch

    【讨论】:

      猜你喜欢
      • 2011-04-24
      • 1970-01-01
      • 1970-01-01
      • 2012-01-21
      • 2010-10-09
      • 1970-01-01
      • 2011-06-21
      • 1970-01-01
      相关资源
      最近更新 更多