【问题标题】:Extract innerHtml out of body tag using jsoup使用jsoup从body标签中提取innerHtml
【发布时间】:2019-09-30 09:12:11
【问题描述】:

我正在使用 jsoup 解析 html 并想提取 body 标签内的 innerHtml

到目前为止,我尝试使用 document.body.childern().outerHtml;但它只给出 html 元素并跳过正文内的浮动文本(不包含在任何 html 标记中)

private String getBodyTag(final Document document) {
        return document.body().children().outerHtml();
}

输入:

<!DOCTYPE html>
<html lang="de">
    <head>
        <META http-equiv="Content-Type" content="text/html; charset=UTF-8">
        <link rel="stylesheet" type="text/css" href="assets/style.css">
    </head>
    <body>
       <div>questions to improve formatting and clarity.</div>
       <h3>Guided Mode</h3> 
       some sample raw/floating text
    </body>
</html>

预期:

<div>questions to improve formatting and clarity.</div>
<h3>Guided Mode</h3> 
some sample raw/floating text

实际:

<div>questions to improve formatting and clarity.</div>
<h3>Guided Mode</h3>

【问题讨论】:

    标签: java html jsoup


    【解决方案1】:

    请使用这个:

    private String getBodyTag(final Document document) {
        return document.body().html();
    }
    

    【讨论】:

      【解决方案2】:

      您可以尝试返回 document.body.innerHtml;,这样它会返回 body 标签内的所有内容,包括任何标签外的文本。

      据我所知,您尝试完成它的方式不起作用,因为“原始文本”不被视为孩子。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2018-08-21
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多