【发布时间】:2011-12-13 16:12:43
【问题描述】:
我刚刚了解了 MozRepl 与 Perl 的 WWW::Mechanize::Firefox 结合使用的奇妙之处,并试图弄清楚如何使用它来爬取 GWT 页面(例如:https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42)
我真正想要的是呈现的 html,而不是实际的 html。非常感谢我如何得到这个的例子。
【问题讨论】:
-
看起来我可以通过执行以下操作来呈现页面的各个部分: $mech->xpath('//*[@id="goh-content-container"]', one= >1)->{innerHTML};奇怪的是,这似乎并不总是有效。有时它什么也不输出,有时它会输出 HTML。关于为什么它不能始终如一地提供输出的任何想法?
-
更多信息:当我运行单个爬虫时,它似乎输出一致,但如果我与 MozRepl 进行多次交互,则输出似乎不太一致。在 Ubuntu 11.04 上运行 Firefox 7.0.1
标签: perl firefox gwt mechanize mozrepl