【问题标题】:Getting rendered HTML with MozRepl and Mechanize::Firefox使用 MozRepl 和 Mechanize::Firefox 获取渲染的 HTML
【发布时间】:2011-12-13 16:12:43
【问题描述】:

我刚刚了解了 MozRepl 与 Perl 的 WWW::Mechanize::Firefox 结合使用的奇妙之处,并试图弄清楚如何使用它来爬取 GWT 页面(例如:https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42

我真正想要的是呈现的 html,而不是实际的 html。非常感谢我如何得到这个的例子。

【问题讨论】:

  • 看起来我可以通过执行以下操作来呈现页面的各个部分: $mech->xpath('//*[@id="goh-content-container"]', one= >1)->{innerHTML};奇怪的是,这似乎并不总是有效。有时它什么也不输出,有时它会输出 HTML。关于为什么它不能始终如一地提供输出的任何想法?
  • 更多信息:当我运行单个爬虫时,它似乎输出一致,但如果我与 MozRepl 进行多次交互,则输出似乎不太一致。在 Ubuntu 11.04 上运行 Firefox 7.0.1

标签: perl firefox gwt mechanize mozrepl


【解决方案1】:

我决定使用出色的PhantomJS 来完成工作。使用 Phantom 作为服务器端工具来获取动态网页的渲染 HTML 非常容易。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2012-04-10
    • 2014-11-02
    • 1970-01-01
    • 2015-09-12
    • 2012-10-03
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多