【发布时间】:2013-01-13 12:56:30
【问题描述】:
我正在使用 JSoup 来清理一些不受信任的 HTML。我发现如果我打电话
String html = "<div id='foo'><script type='text/javascript'>alert('hello');</script></div>";
String cleanedHtml = Jsoup.clean(html, Whitelist.relaxed());
此时cleanedHtml是
<div><div>
所以<script> 标记已被正确删除,但神秘的是,<div> 的id 属性也被删除。有什么好的理由应该删除它还是一个错误?
【问题讨论】:
-
尝试在
div中添加除script元素之外的其他内容。 -
@BalusC (实际上,它不是 :( Javadocs 与代码不匹配——根据文档,
<div>标签应该被删除,它只声明“适当”的属性,这让读者不确定,IMO。创建拉取请求。)
标签: java html-parsing jsoup