【问题标题】:Jsoup messing the HTML with self closing text areaJsoup 用自闭文本区域弄乱 HTML
【发布时间】:2019-05-25 02:30:06
【问题描述】:

我正在使用 Jsoup 稍微改变一个 HTML,这个 HTML 有一些由网站的发布者注入的部分。 解析 HTML 时发生了一些奇怪的事情。 每当它有一个自动关闭的文本区域(我知道这是无效的,但出版商有时会这样做)时,以下元素会被转义,因为它们是文本区域的一部分,如下所示:

<div>
<div>
<textarea/>
</div>
</div>

变成

<div>
<div>
<textarea></textarea>
&lt;/div&gt;
&lt;/div&gt;

我希望它变成:

<div>
<div>
<textarea></textarea>
</div>
</div>

我可以做些什么来避免这种行为吗?

【问题讨论】:

    标签: jsoup


    【解决方案1】:

    使用 XML 解析器,因此 Jsoup 不会尝试修复 HTML 语法。

    Document doc = Jsoup.parse("<div><div><textarea/></div></div>", "", Parser.xmlParser());
    

    【讨论】:

    • 好吧,我确实希望它修复 HTML 语法。最后,我仍在生成 HTML。所以,我希望它修复语法。我只是不希望它在自动关闭文本区域之后假设任何东西在文本区域 inside (因此,被转义)。
    • 看来这是一个错误。我在这里举报github.com/jhy/jsoup/issues/1220
    猜你喜欢
    • 2012-05-31
    • 1970-01-01
    • 2014-01-17
    • 1970-01-01
    • 1970-01-01
    • 2019-11-06
    • 2015-10-25
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多