【问题标题】:Scroll down to bottom of infinite page with PhantomJS in Python在 Python 中使用 PhantomJS 向下滚动到无限页面的底部
【发布时间】:2015-05-09 18:52:35
【问题描述】:

我已经成功地让 Python 与 Selenium 和 PhantomJS 重新加载动态加载的无限滚动页面,如下例所示。但是如何修改它,而不是手动设置重新加载次数,程序在到达最低点时停止?

reloads = 100000 #set the number of times to reload
pause = 0 #initial time interval between reloads
driver = webdriver.PhantomJS()

# Load Twitter page and click to view all results
driver.get(url)
driver.find_element_by_link_text("All").click()

# Keep reloading and pausing to reach the bottom
for _ in range(reloads):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(pause)

text_file.write(driver.page_source.encode("utf-8"))
text_file.close()

【问题讨论】:

    标签: python selenium-webdriver phantomjs


    【解决方案1】:

    您可以检查滚动是否在每个步骤中都做了任何事情。

    lastHeight = driver.execute_script("return document.body.scrollHeight")
    while True:
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(pause)
        newHeight = driver.execute_script("return document.body.scrollHeight")
        if newHeight == lastHeight:
            break
        lastHeight = newHeight
    

    这使用了一个不好的静态等待量,因为您不希望在它更快完成时等待不必要的等待,并且您不希望在动态加载由于某种原因太慢时脚本过早退出。

    由于页面通常会在列表中加载更多元素,因此您可以在加载前检查列表的长度,然后等待下一个元素加载完毕。

    对于 twitter,这可能如下所示:

    while True:
        elemsCount = browser.execute_script("return document.querySelectorAll('.stream-items > li.stream-item').length")
    
        browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    
        try:
            WebDriverWait(browser, 20).until(
                lambda x: x.find_element_by_xpath(
                    "//*[contains(@class,'stream-items')]/li[contains(@class,'stream-item')]["+str(elemsCount+1)+"]"))
        except:
            break
    

    我使用了 XPath 表达式,因为 PhantomJS 1.x 在使用 :nth-child() CSS 选择器时有时会出现错误。

    Full version 供参考。

    【讨论】:

    • 同样使用 Firefox Web 驱动程序,两个高度都打印为“无”
    • 抱歉,忘记return 并将睡眠移动到正确的位置。
    • 该脚本似乎已经过时,因为网格时间线项目和网格类不存在。我无法调整它,你能指出我正确的方向吗?
    • @JensdeBruijn 如果您仍然遇到问题,我现在已经修复了脚本。 (花费的时间比预期的要长)
    • @yome 我帮不了你。我不再使用 PhantomJS。此答案中的代码已使用 PhantomJS 1.9.x 进行了测试。我不知道它是否仍然以与 v2.1.1 相同的方式工作,而且我没有时间或不想知道。至少在 twitter 页面中除了 html 更改之外应该没有任何变化。我已经看到了你的最后三个问题。我看到的所有问题是你说它不起作用,但你没有提供任何类型的迹象表明你试图调试它。循环迭代时页面如何变化?有没有错误?你截图了吗?
    猜你喜欢
    • 2018-05-29
    • 1970-01-01
    • 2021-11-10
    • 1970-01-01
    • 2023-01-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多