【发布时间】:2020-02-25 09:31:18
【问题描述】:
尝试从网站SGX获取一张桌子。
页面保存到本地驱动器,我正在使用 BeautifulSoup 来解析它:
soup = BeautifulSoup(open(pages), "lxml")
soup.prettify()
list_0 = soup.find_all('table')[0]
print list_0
它返回的,不是页面的第一行:
[<tr><td>Zhongmin Baihui</td><td>5SR</td><td class="nowrap">09:44 AM</td><td class="nowrap">09:49 AM</td><td>0.615</td><td>0.675</td><td>0.555</td></tr>]
检索此表的正确方法是什么?
谢谢。
【问题讨论】:
-
如果你的表中有一些类或 id,你可以按类或 id 过滤
soup.findAll('table', {'class': 'some_class', 'id': 'some_id'}) -
我发现表格不在表格标签中,而是在 div
soup.findAll('div', {'class': 'table-container'})[0]中,这将为您提供您想要的表格
标签: python parsing web-scraping beautifulsoup