【问题标题】:Python Selenium 2 - Grabbing HTML Source with Minimal ImpactPython Selenium 2 - 以最小的影响获取 HTML 源代码
【发布时间】:2014-03-06 03:55:43
【问题描述】:

我对编程很陌生,对 Python 也很陌生。我正在使用 Selenium 访问一个网站并按下一些按钮,但是当我在那个网站上时,我还需要源代码。我知道如何使用 urllib 和 Selenium 来做到这一点,但我不知道如何最大限度地减少我向网站发出的请求数量。我不希望我的程序惹恼网站所有者。

我想,既然我已经在那个使用 Selenium 的网站上,那么使用 Selenium 的 .page_source 将是可行的方法。

顺便说一句,是否有一个经验法则来确定多少请求过多,例如 24 小时周期?

【问题讨论】:

    标签: python selenium urllib


    【解决方案1】:

    webdriver 实例具有page_source 属性,其中包含当前页面的源代码。

    例如:

    from selenium import webdriver
    
    browser = webdriver.Firefox()
    browser.get('http://example.com')
    print browser.page_source
    browser.quit()
    

    我不知道如何最小化金额 我向网站提出的请求。

    读取驱动程序的page_source只是从浏览器中获取它,因此不会向服务器发出额外的http请求。


    顺便说一句,有没有经验法则 至于有多少请求太多, 比如说,一个 24 小时的周期?

    您拥有该网站还是其他人的面向公众的网站?如果是您的,请遵循您的托管服务提供商的带宽限制和硬件限制。如果您不拥有它,请遵守网站的服务条款并尊重他们的 robots.txt。 (这可能最好作为一个单独的问题来回答)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-06-30
      • 2011-11-07
      • 2011-12-13
      • 2016-10-06
      • 2013-04-06
      • 2020-10-31
      • 2011-03-03
      • 1970-01-01
      相关资源
      最近更新 更多