【发布时间】:2019-05-19 18:21:15
【问题描述】:
我正在尝试解析来自该网站的数据
https://findrulesoforigin.org/home/compare?reporter=392&partner=036&product=020130010
特别是,我正在尝试获取 Criterion(ITC) 下的数据。我想要的文字是 CC+ECT
我想要的 html 中的信息似乎是
<a class= js-glossary data-leg= "CC+ECT">
我是网络抓取的新手,我尝试了教程中教授的技术,但没有奏效。我听说过 Selenium,也试过了。但是,这段代码也不起作用。
from selenium import webdriver
from bs4 import BeautifulSoup
import requests
driver = webdriver.Firefox(executable_path = r"D:\Python work\driver\geckodriver.exe")
driver.get(r"https://findrulesoforigin.org/home/compare?reporter=392&partner=036&product=020130010")
html = driver.page_source
soup = BeautifulSoup(html, 'lxml')
data = soup.find_all("a", attrs= {"class":"js-glossary"})
代码生成一个空列表。我还读到我可以通过将汤标签视为字典来提取数据。在这种情况下
data["data-leg"]
我是在正确的轨道上还是偏离了方向?
【问题讨论】:
标签: python selenium selenium-webdriver beautifulsoup webdriverwait