【发布时间】:2020-06-01 01:12:45
【问题描述】:
我是 BeautifulSoup 的新手,我想尝试一些网络抓取。对于我的小项目,我想从维基百科获得金州勇士队的胜率。我打算把包含这些信息的表格做成熊猫,这样我就可以多年来绘制它。但是,我的代码选择了 Table Key 表而不是 Seasons 表。我知道这是因为它们是同一类型的表(wikitable),但我不知道如何解决这个问题。我确信我缺少一个简单的解释。有人可以解释如何修复我的代码并解释我将来如何选择哪些表进行网络抓取?谢谢!
c_data = "https://en.wikipedia.org/wiki/List_of_Golden_State_Warriors_seasons" #wikipedia page
c_page = urllib.request.urlopen(c_data)
c_soup = BeautifulSoup(c_page, "lxml")
c_table=c_soup.find('table', class_='wikitable') #this is the problem
c_year = []
c_rate = []
for row in c_table.findAll('tr'): #setup for dataframe
cells=row.findAll('td')
if len(cells)==13:
c_year = c_year.append(cells[0].find(text=True))
c_rate = c_rate.append(cells[9].find(text=True))
print(c_year, c_rate)
【问题讨论】:
-
我还导入了beautifulsoup和urllib.request
标签: python python-3.x dataframe beautifulsoup wikipedia