Python Selenium 2 - 以最小的影响获取 HTML 源代码

【问题标题】：Python Selenium 2 - Grabbing HTML Source with Minimal ImpactPython Selenium 2 - 以最小的影响获取 HTML 源代码
【发布时间】：2014-03-06 03:55:43
【问题描述】：

我对编程很陌生，对 Python 也很陌生。我正在使用 Selenium 访问一个网站并按下一些按钮，但是当我在那个网站上时，我还需要源代码。我知道如何使用 urllib 和 Selenium 来做到这一点，但我不知道如何最大限度地减少我向网站发出的请求数量。我不希望我的程序惹恼网站所有者。

我想，既然我已经在那个使用 Selenium 的网站上，那么使用 Selenium 的 .page_source 将是可行的方法。

顺便说一句，是否有一个经验法则来确定多少请求过多，例如 24 小时周期？

【问题讨论】：

标签： python selenium urllib

【解决方案1】：

webdriver 实例具有page_source 属性，其中包含当前页面的源代码。

例如：

from selenium import webdriver

browser = webdriver.Firefox()
browser.get('http://example.com')
print browser.page_source
browser.quit()

我不知道如何最小化金额我向网站提出的请求。

读取驱动程序的page_source只是从浏览器中获取它，因此不会向服务器发出额外的http请求。

顺便说一句，有没有经验法则至于有多少请求太多，比如说，一个 24 小时的周期？

您拥有该网站还是其他人的面向公众的网站？如果是您的，请遵循您的托管服务提供商的带宽限制和硬件限制。如果您不拥有它，请遵守网站的服务条款并尊重他们的 robots.txt。（这可能最好作为一个单独的问题来回答）

【讨论】：