【问题标题】:Specific Java HTML parser [duplicate]特定的 Java HTML 解析器 [重复]
【发布时间】:2011-12-16 16:36:59
【问题描述】:

可能重复:
What are the pros and cons of the leading Java HTML parsers?

你会推荐什么 HTML 解析器来解析 HTML? 我需要一个功能 html 解析器: 该解析器返回有用的文本,没有菜单,没有页脚,没有标题信息。仅包含正常内容的文本。

我尝试过 Jericho Html 解析器、HtmlCleaner,但它们似乎无法按我的需要工作。

提前致谢。

【问题讨论】:

    标签: java html


    【解决方案1】:

    我不太确定你在问什么; HTML 解析器解析 HTML——从中提取的内容取决于您。我喜欢jsouptagsoup

    如果您想要从 HTML 中提取“正常”内容的东西,您可以查看Apache Tika 如何处理 HTML。所有 HTML 的编写方式都不同——您必须能够定义什么是“正常”内容,以及它在哪里。

    【讨论】:

    • 我找到了令人难以置信的解析器,正是我想要的。你可以自己检查它的开源:boilerpipe-web.appspot.com
    • @Paulius 看起来很酷;类似于 Tika 所做的。感谢您的参考。
    猜你喜欢
    • 2011-03-24
    • 1970-01-01
    • 2012-08-11
    • 2015-06-24
    • 2011-07-12
    • 2017-12-29
    • 2012-02-22
    • 2011-11-26
    相关资源
    最近更新 更多