使用 java html 解析器提取文本答案

【问题标题】：Text extraction with java html parsers使用 java html 解析器提取文本
【发布时间】：2011-02-06 06:52:23
【问题描述】：

我想使用一个 html 解析器，它以一种很好、优雅的方式执行以下操作

从我目前的调查来看，jericho 似乎很合适。你们还有其他的开源库推荐吗？

【问题讨论】：

【解决方案1】：

我肯定会选择 JSoup。

非常优雅的库，完全符合您的需求。

【讨论】：

【解决方案2】：

我最近尝试了 HtmlCleaner 和 CyberNekoHtml。 CyberNekoHtml 是一个 DOM/SAX 解析器，可以产生可预测的结果。 HtmlCleaner 稍微快一点，但通常无法产生准确的结果。

我会推荐 CyberNekoHtml。 CyberNekoHtml 可以做你提到的所有事情。例如，提取所有元素及其属性的列表非常容易。如果您想重建页面，可以遍历 DOM 树将每个元素构建回 HTML。

这里有一个开源 java html 解析器列表： http://java-source.net/open-source/html-parsers

【讨论】：

【解决方案3】：

我最终使用 HtmlCleaner http://htmlcleaner.sourceforge.net/ 来做类似的事情。它非常易于使用，并且可以快速满足我的需求。

【讨论】：