【发布时间】:2014-09-02 00:31:54
【问题描述】:
我已使用此方法将网页检索到 org.jsoup.nodes.Document 对象中:
myDoc = Jsoup.connect(myURL).ignoreContentType(true).get();
我应该如何将此对象写入 HTML 文件?
myDoc.html()、myDoc.text() 和 myDoc.toString() 方法不会输出文档的所有元素。
javascript 元素中的某些信息在解析时可能会丢失。例如,Instagram 媒体页面源中的“时间戳”。
【问题讨论】:
-
调用
myDoc.html()时缺少哪些元素? -
某些元素在使用 Jsoup 获取时可能会被移除或解析不同。使用白名单来修复它!
-
@cy3er 我添加了一个示例。在这种情况下,alkis 的解决方案有效。