【发布时间】:2011-12-16 16:36:59
【问题描述】:
可能重复:
What are the pros and cons of the leading Java HTML parsers?
你会推荐什么 HTML 解析器来解析 HTML? 我需要一个功能 html 解析器: 该解析器返回有用的文本,没有菜单,没有页脚,没有标题信息。仅包含正常内容的文本。
我尝试过 Jericho Html 解析器、HtmlCleaner,但它们似乎无法按我的需要工作。
提前致谢。
【问题讨论】:
可能重复:
What are the pros and cons of the leading Java HTML parsers?
你会推荐什么 HTML 解析器来解析 HTML? 我需要一个功能 html 解析器: 该解析器返回有用的文本,没有菜单,没有页脚,没有标题信息。仅包含正常内容的文本。
我尝试过 Jericho Html 解析器、HtmlCleaner,但它们似乎无法按我的需要工作。
提前致谢。
【问题讨论】:
我不太确定你在问什么; HTML 解析器解析 HTML——从中提取的内容取决于您。我喜欢jsoup 和tagsoup。
如果您想要从 HTML 中提取“正常”内容的东西,您可以查看Apache Tika 如何处理 HTML。所有 HTML 的编写方式都不同——您必须能够定义什么是“正常”内容,以及它在哪里。
【讨论】: