【发布时间】:2023-02-24 02:10:55
【问题描述】:
我正试图在这个网站上抓取表格: https://www.tradingview.com/markets/stocks-usa/earnings/
据我所知,该网站的表格最初加载的数字不正确。然后它使用 javascript、谷歌标签管理器和谷歌分析来填充正确的值。我想在表更新后抓取正确的值。
这是我尝试过的:
import requests
from bs4 import BeautifulSoup
url = 'https://www.tradingview.com/markets/stocks-usa/earnings/'
page = requests.get(url)
soup = BeautifulSoup(page.text, 'html.parser')
b = soup.find_all('td', class_='tv-data-table__cell tv-screener-table__cell tv-screener-table__cell--big')
c_list = []
for c in b:
c_list.append(c.text.strip())
c_list
今天它回来了,
['250.813B', '2.43', '1.82', '0.13', '7.87', '35.648B', '29.114B', '2023-02-23', '2022-12-30',...]
这些值不正确,是在表更新之前加载到网站上的值。
有任何想法吗?我希望这可以通过简单的 python 工具来完成,而不必使用我无权访问的谷歌分析 API...
【问题讨论】:
标签: python web-scraping python-requests google-analytics google-tag-manager