【问题标题】:How to save a webpage by seleniumRC如何通过 selenium RC 保存网页
【发布时间】:2011-03-28 06:39:13
【问题描述】:

我使用seleniumRC打开一个url,那么如何保存这个网页呢?如何像 urllib.urlretrieve 那样实现它呢?但是urllib不能在页面中操作javascript。还有一个问题:它会用我看到的 seleniumRC 打开它来保存整个页面吗?

【问题讨论】:

  • 你试过 selenium.getHtmlSource() 吗?

标签: python selenium selenium-rc


【解决方案1】:

听起来您混淆了两个非常不同的库。

urllib:

该模块提供了一个用于通过万维网获取数据的高级接口。特别是,urlopen() 函数类似于内置函数 open(),但接受通用资源定位器 (URL) 而不是文件名。

您可以使用 python 的 urllib 库从有效 URL 中检索原始标记。该库不会调用页面上的任何嵌入式 javascript,因为该库从不尝试解析或呈现任何内容。

Selenium RC:

Selenium Remote Control (RC) 是一种测试工具,可让您使用任何支持 JavaScript 的主流浏览器针对任何 HTTP 网站以任何编程语言编写自动化 Web 应用程序 UI 测试。

Selenium RC 用于自动化测试。通过 javascript 在 Web 浏览器中执行测试,但这是一个测试套件——您会收到有关测试状态的信息。 Selenium RC 不提供任何功能来保存渲染页面的图像。


除非我误解了您的问题,否则您似乎正在寻找一个库,该库允许您检索呈现的 HTML 页面的图像(包括 javascript DOM 操作)。如果确实如此,我建议查看PyWebShot,它似乎提供了该功能。你可以在here查看它的截图(以及一些关于它的额外信息)。

如果它不一定是 python 库,周围有许多提供屏幕截图的 Web 服务:

【讨论】:

  • 谢谢你的建议。我不想要截图,但是整个网页的 html(里面有一些 javascript,所以除了你喜欢它之外,有些文本不显示)来解析它在进一步的步骤。
猜你喜欢
  • 2012-01-19
  • 1970-01-01
  • 2012-06-13
  • 2011-03-16
  • 2018-10-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多