【发布时间】:2016-07-29 23:46:11
【问题描述】:
我的用例:通过 jsoup 获取 html 页面并返回 w3c-DOM 以供 XML 转换进一步处理:
...
org.jsoup.nodes.Document document = connection.get();
org.w3c.dom.Document dom = new W3CDom().fromJsoup(document);
...
适用于大多数文档,但对于某些文档,它会抛出 INVALID_CHARACTER_ERR 而不会告诉哪里。
似乎很难找到错误。我将代码更改为首先将 url 导入字符串,然后通过正则表达式检查错误字符。但这对不良属性(例如,没有价值)等没有帮助。
我目前的解决方案是通过在 jsoup-document(head、img、script ...)中按标签删除元素来最大程度地降低风险。
有没有更优雅的解决方案?
【问题讨论】:
-
不要忘记将您选择的答案标记为已接受以关闭此问题。