Jsoup - 如何通过转义不删除不需要的 html 来清理 html？答案

【问题标题】：Jsoup - Howto clean html by escaping not deleting the unwanted html?Jsoup - 如何通过转义不删除不需要的 html 来清理 html？
【发布时间】：2012-01-22 05:46:21
【问题描述】：

有没有办法让 jsoup 通过转义不需要的 HTML 而不是完全删除它来清除其中包含 HTML 的字符串？我的例子：

String dirty = "This is <b>REALLY</b> dirty code from <a href="www.rubbish.url.zzzz">haxors-r-us</a>
String clean = Jsoup.clean(dirty, new Whitelist().addTags("a").addAttributes("a", "href", "name", "rel", "target"));

这给出了一个“干净”的字符串：

This is    REALLY    dirty code from <a href="www.rubbish.url.zzzz">haxors-r-us</a>

我想要的是“干净”的字符串：

"This is &lt;b&gt;REALLY&lt;/b&gt; dirty code from <a href="www.rubbish.url.zzzz">haxors-r-us</a>

【问题讨论】：

不错的一个。不，Jsoup 不支持它。您可能想在github.com/jhy/jsoup/issues 发布功能请求，以向Whitelist API 添加一个新方法，该方法可以将HTML 删除转换为HTML 转义。
发布功能请求：github.com/jhy/jsoup/issues/515

标签： jsoup

【解决方案1】：

假设正在解析字符串而不是 HTML 文档（根据您的问题），此方法将起作用：

public String escapeHtml(String source) {
    Document doc = Jsoup.parseBodyFragment(source);
    Elements elements = doc.select("b");
    for (Element element : elements) {
        element.replaceWith(new TextNode(element.toString(),""));
    }
    return Jsoup.clean(doc.body().toString(), new Whitelist().addTags("a").addAttributes("a", "href", "name", "rel", "target"));
}

您可以将“b”标签作为参数传入您希望转义的标签列表。

相关的通过 JUnit 测试：

@Test
public void testHtmlEscaping() throws Exception {
    String source = "This is <b>REALLY</b> dirty code from <a href=\"www.rubbish.url.zzzz\">haxors-r-us</a>";
    String expected = "This is &lt;b&gt;REALLY&lt;/b&gt; dirty code from \n<a href=\"www.rubbish.url.zzzz\">haxors-r-us</a>";
    String transformed = transformer.escapeHtml(source);
    assertEquals(transformed, expected);
}

请注意，我在测试的“预期”字符串中的“a”标记之前添加了一行 return “\n”，因为 JSoup 会格式化页面。

【讨论】：