【发布时间】:2009-03-24 23:07:47
【问题描述】:
我想下载使用 javascript 来输出数据的网页。 Wget 可以做其他所有事情,但运行 javascript。
甚至类似:firefox -remote "saveURL(www.mozilla.org, myfile.html)"
会很棒(不幸的是,这种命令不存在)。
【问题讨论】:
标签: javascript browser web-crawler
我想下载使用 javascript 来输出数据的网页。 Wget 可以做其他所有事情,但运行 javascript。
甚至类似:firefox -remote "saveURL(www.mozilla.org, myfile.html)"
会很棒(不幸的是,这种命令不存在)。
【问题讨论】:
标签: javascript browser web-crawler
我会看看 selenium 浏览器自动化工具 (http://seleniumhq.org/) - 您可以自动访问网页,并保存生成的 HTML。
我们在之前的项目中将它用于类似的目的,取得了巨大的成功。
【讨论】:
我赞同 Alex 对 Selenium 的建议。它在浏览器中运行,因此它可以在 Javascript 修改 DOM 后捕获输出 HTML。
【讨论】:
使用浏览器驱动的方法的问题是很难自动化抓取过程。
在您最喜欢的编程语言中寻找“无头浏览器”。或者,您可以使用Jaxer 加载 DOM 服务器端,执行 JavaScript 并让它操作 DOM,然后使用您已经熟悉的相同 JavaScript 抓取修改后的 DOM。这将是我的首选方法。
【讨论】:
我在使用之前已经这样做了:
【讨论】: