【发布时间】:2019-01-27 04:40:48
【问题描述】:
刚开始使用 Python 进行网络抓取,并且在从以下来源获取表格格式的数据时遇到问题:https://www.uzse.uz/trade_results?mkt_id=ALL&date=26.01.2019&search_key=
我能够从单个页面获取“原始”表:
import requests
from bs4 import BeautifulSoup
page = requests.get("https://www.uzse.uz/trade_results?mkt_id=ALL&date=25.01.2019&search_key=")
soup = BeautifulSoup(page.content, 'html.parser')
tbl = soup.find_all(class_= "col-xs-12 table-responsive")
tbl
但是,我们的想法是以表格格式获取过去 2 年中给定日期(多页)的所有交易,以进行进一步的探索性分析。此时我对第二列和第三列中的 URL 不感兴趣,只想保留名称(即 UZ7004510002 KUMZ、AJ)。
如果我正在努力取得进展,我将不胜感激。
【问题讨论】:
标签: python python-3.x pandas beautifulsoup css-tables