【发布时间】:2016-03-20 17:19:31
【问题描述】:
我想获取一个 HTML 页面的源代码,但是它有一个 JS 脚本,可以动态加载数据并将接收到的内容附加到页面上。
我使用jsoup解析HTML,但是它只返回JS执行之前的内容,所以我没有收到动态加载的数据。
如何在使用任何框架、cli 等执行脚本后获取源代码?
【问题讨论】:
-
在项目被渲染后类似于 document.getElementById("elementid").outerHTML。
-
展示这个 JS 脚本的样子。
-
最好的办法是通过 Phantom 运行它并使用 Phantom 的
page.content。 -
请说明您正在使用的框架,分享一些代码,并提及您到目前为止尝试过的内容
标签: javascript html parsing