【问题标题】:issue with scraping using beautiful soup and selenium using python使用漂亮的汤和使用 python 的硒进行刮擦的问题
【发布时间】:2020-05-28 00:03:01
【问题描述】:
我正在尝试使用 selenium / BS4 进行练习,但遇到了问题。
我的代码在这里
link to code
基本上我试图从以下位置获取网址:
`'class':'td_text_highlight_marker_green td_text_highlight_marker'`
但每当我运行脚本时,返回的链接数总是不同的。
每次运行它都应该返回 18。
我什至尝试单击链接以使用 selenium 跟踪它,但我终其一生都无法弄清楚。
请帮忙:)
【问题讨论】:
标签:
python
selenium
web-scraping
beautifulsoup
【解决方案1】:
网页 DOM 未及时完全加载以供您搜索。因此,在您开始使用BeautifulSoup 查找之前,要确保span 确实存在,请添加WebDriverWait。
for coupon_url in coupon_url_list:
driver.get(coupon_url)
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//span[@class='td_text_highlight_marker_green td_text_highlight_marker']")))
content = driver.page_source
# rest of your code here