在 python 中刷新的 Selenium 循环页面答案

【问题标题】：Selenium loop page refreshed in python在 python 中刷新的 Selenium 循环页面
【发布时间】：2017-03-31 21:00:14
【问题描述】：

我有一些关于在 Python 中使用 Selenium 执行循环的问题。其实我是想遍历‘driver.find_elements_by_id’跟踪的链接列表，一个一个点击，但问题是每次点击链接（代码中的‘linklist’），页面已刷新，因此有一条错误消息指示 '消息：元素引用已过时。要么元素不再附加到 DOM，要么页面已刷新。

我知道是因为点击后链接列表消失了。但是，即使页面不再存在，我通常如何在 Selenium 中迭代列表。我使用了'driver.back()'，显然它不起作用。

代码中这一行之后弹出错误信息：

link.click()

链接列表位于这个URL（我想点击按钮文档，然后在显示刷新页面后下载第一个文件）'https://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK=0001467373&type=10-K&dateb=20101231&owner=exclude&count=40'

有人可以看看这个问题吗？谢谢！

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
import unittest
import os
import time
from bs4 import BeautifulSoup
from selenium.webdriver.common.keys import Keys
import requests
import html2text



class LoginTest(unittest.TestCase):
 def setUp(self):


    self.driver=webdriver.Firefox()
    self.driver.get("https://www.sec.gov/edgar/searchedgar/companysearch.html")


 def test_Login(self):
    driver=self.driver

    cikID="cik"
    searchButtonID="cik_find"
    typeID="//*[@id='type']"
    priorID="prior_to"
    cik="00001467373"
    Type="10-K"
    prior="20101231"
    search2button="//*[@id='contentDiv']/div[2]/form/table/tbody/tr/td[6]/input[1]"


    documentsbuttonid="documentsbutton"
    formbuttonxpath='//a[text()="d10k.htm"]'


    cikElement=WebDriverWait(driver,30).until(lambda driver:driver.find_element_by_id(cikID))

    cikElement.clear()
    cikElement.send_keys(cik)


    searchButtonElement=WebDriverWait(driver,20).until(lambda driver:driver.find_element_by_id(searchButtonID))
    searchButtonElement.click()

    typeElement=WebDriverWait(driver,30).until(lambda driver:driver.find_element_by_xpath(typeID))
    typeElement.clear()
    typeElement.send_keys(Type)
    priorElement=WebDriverWait(driver,30).until(lambda driver:driver.find_element_by_id(priorID))
    priorElement.clear()
    priorElement.send_keys(prior)
    search2Element=WebDriverWait(driver,30).until(lambda driver:driver.find_element_by_xpath(search2button))
    search2Element.send_keys(Keys.SPACE)
    time.sleep(1)

    documentsButtonElement=WebDriverWait(driver,20).until(lambda driver:driver.find_element_by_id(documentsbuttonid))
    a=driver.current_url



    window_be1 = driver.window_handles[0]
    linklist=driver.find_elements_by_id(documentsbuttonid)


    with open("D:/doc2/"+"a"+".txt", mode="w",errors="ignore") as newfile:


        for link in linklist:

                link.click()            

                formElement=WebDriverWait(driver,30).until(lambda driver:driver.find_element_by_xpath(formbuttonxpath))
                formElement.click()
                time.sleep(1)

                t=driver.current_url

                r = requests.get(t)
                data = r.text

                newfile.write(html2text.html2text(data))

                drive.back()
                drive.back()


 def terdown(self):
    self.driver.quit()
if __name__=='__main__':
 unittest.main()

【问题讨论】：

不确定这是否是问题所在，但您在for 循环中使用drive.back() 而不是driver.back()

标签： python loops selenium click refresh

【解决方案1】：

您不应使用网络元素列表，而应使用链接列表。试试这样的：

linklist = []
for link in driver.find_elements_by_xpath('//h4[@class="title"]/a'):
    linklist.append(link.get_attribute('href'))

然后你可以遍历链接列表

for link in linklist:
    driver.get(link)
    # do some actions on page

如果你想物理点击每个链接，你可能需要使用

for link in linklist:
    driver.find_element_by_xpath('//h4[@class="title"]/a[@href=%s]' % link).click()
    # do some actions on page

【讨论】：

也许你想看看这个帖子@Andersson...stackoverflow.com/questions/40748555/…