【发布时间】:2017-03-12 21:43:05
【问题描述】:
我正在尝试解析此网站中的数据: http://www.baseball-reference.com/boxes/CHN/CHN201606020.shtml
我想提取表中的一些数据。但由于某种原因,我很难找到它们。比如我想做的就是这个
from bs4 import BeautifulSoup
import requests
url = 'http://www.baseball-reference.com/boxes/CHN/CHN201606020.shtml'
soup = BeautifulSoup(requests.get(url).text)
soup.find('table', id='ChicagoCubsbatting')
尽管 html 中存在具有该 id 的表,但最后一行不返回任何内容。此外,即使页面中有很多表,len(soup.findAll('table')) 也会返回 1。我试过使用“lxml”、“html.parser”和“html5lib”。所有的行为方式都一样。
发生了什么事?为什么这不起作用,我该怎么做才能提取表格?
【问题讨论】:
-
该表在评论中,因此它实际上不是文档的一部分。
-
那它是如何出现在网页中的呢?即便如此,我该如何提取它?
标签: python html beautifulsoup