【发布时间】:2022-01-12 23:07:58
【问题描述】:
我正在尝试使用 Selenium 和 Python 来抓取以下 URL 的博客文章标题:https://blog.coinbase.com/tagged/coinbase-pro。当我使用 Selenium 获取页面源时,它不包含博客文章标题,但是当我右键单击并选择“查看页面源”时,Chrome 源代码会包含。我正在使用以下代码:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
options = Options()
options.headless = True
driver = webdriver.Chrome(options=options)
driver.get("https://blog.coinbase.com/tagged/coinbase-pro")
pageSource = driver.page_source
print(pageSource)
任何帮助将不胜感激。 谢谢。
【问题讨论】:
-
你想要 8 个标题与 graf graf--h3 graf-after--figure graf--trailing graf--title 作为它的类吗?
-
您可能希望在
driver.get之后实现等待,以允许 Selenium 动态加载内容。但既然它们是动态加载的——为什么不直接查询 api?
标签: python selenium web-scraping