【问题标题】:Execute HTML Javascript from Command Line从命令行执行 HTML Javascript
【发布时间】:2012-05-27 04:04:56
【问题描述】:

我有许多网页正在尝试解析使用 curl 获得的信息。每个页面都使用 JQuery 在浏览器中加载文档时转换其内容(使用 document.ready 函数) - 主要设置 div 的类/ID。一旦加载了 Javascript 函数,这些信息就更容易解析。

我有哪些选项(最好是从命令行)执行页面的 Javascript 内容并转储转换后的 HTML?

【问题讨论】:

  • getfirebug.com/commandline ??这就是你要找的人吗?
  • +1 听起来很有趣 :) 我考虑了 node.js 一段时间,但这对你不起作用 =/

标签: javascript jquery html web-scraping


【解决方案1】:

要抓取动态网页,请勿使用 curl 等静态下载工具。

如果您想抓取动态网页,请使用可以通过您的编程语言控制的无头网络浏览器。最流行的工具是 Selenium

http://code.google.com/p/selenium/

使用 Selenium,您可以将修改后的 DOM 树导出为 HTML。

一个示例用例:

https://*.com/a/10053589/315168

【讨论】:

  • 感谢 Mikko,我最终使用 Selenium 和 Java 和 Chrome 绑定来加载每个页面并随后转储页面源 - 它很有效!