【问题标题】:Text extraction with java html parsers使用 java html 解析器提取文本
【发布时间】:2011-02-06 06:52:23
【问题描述】:

我想使用一个 html 解析器,它以一种很好、优雅的方式执行以下操作

  1. 提取文本(这是最重要的)
  2. 提取链接、元关键字
  3. 重建原始文档(可选但不错的功能)

从我目前的调查来看,jericho 似乎很合适。你们还有其他的开源库推荐吗?

【问题讨论】:

    标签: java html text parsing extraction


    【解决方案1】:

    我肯定会选择 JSoup。

    非常优雅的库,完全符合您的需求。

    See Example Here

    【讨论】:

      【解决方案2】:

      我最近尝试了 HtmlCleaner 和 Cyber​​NekoHtml。 Cyber​​NekoHtml 是一个 DOM/SAX 解析器,可以产生可预测的结果。 HtmlCleaner 稍微快一点,但通常无法产生准确的结果。

      我会推荐 Cyber​​NekoHtml。 Cyber​​NekoHtml 可以做你提到的所有事情。例如,提取所有元素及其属性的列表非常容易。如果您想重建页面,可以遍历 DOM 树将每个元素构建回 HTML。

      这里有一个开源 java html 解析器列表: http://java-source.net/open-source/html-parsers

      【讨论】:

        【解决方案3】:

        我最终使用 HtmlCleaner http://htmlcleaner.sourceforge.net/ 来做类似的事情。它非常易于使用,并且可以快速满足我的需求。

        【讨论】:

          猜你喜欢
          • 2023-03-04
          • 2011-04-04
          • 2012-08-11
          • 1970-01-01
          • 2015-09-30
          • 1970-01-01
          • 2011-09-25
          • 1970-01-01
          • 2013-05-22
          相关资源
          最近更新 更多