使用 MozRepl 和 Mechanize::Firefox 获取渲染的 HTML答案

【问题标题】：Getting rendered HTML with MozRepl and Mechanize::Firefox使用 MozRepl 和 Mechanize::Firefox 获取渲染的 HTML
【发布时间】：2011-12-13 16:12:43
【问题描述】：

我刚刚了解了 MozRepl 与 Perl 的 WWW::Mechanize::Firefox 结合使用的奇妙之处，并试图弄清楚如何使用它来爬取 GWT 页面（例如：https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42）

我真正想要的是呈现的 html，而不是实际的 html。非常感谢我如何得到这个的例子。

【问题讨论】：

看起来我可以通过执行以下操作来呈现页面的各个部分： $mech->xpath('//*[@id="goh-content-container"]', one= >1)->{innerHTML};奇怪的是，这似乎并不总是有效。有时它什么也不输出，有时它会输出 HTML。关于为什么它不能始终如一地提供输出的任何想法？
更多信息：当我运行单个爬虫时，它似乎输出一致，但如果我与 MozRepl 进行多次交互，则输出似乎不太一致。在 Ubuntu 11.04 上运行 Firefox 7.0.1

标签： perl firefox gwt mechanize mozrepl

【解决方案1】：

我决定使用出色的PhantomJS 来完成工作。使用 Phantom 作为服务器端工具来获取动态网页的渲染 HTML 非常容易。

【讨论】：