【发布时间】:2020-08-14 15:18:07
【问题描述】:
我在一个网站上找到了这张表 (https://covid.knoxcountytn.gov/case-count.html):
<table class="table table-striped" id="cases_table"></table>
(我这里删除了表体,因为它很长),我需要一种方法来获取其中的数据。
这两个都没有返回:
table=soup.findAll('table', {'id': 'cases_table'})
table = soup.select('table#cases_table')
还有这个:
table=soup.findAll('tbody')
返回一个不是我要查找的 tbody。
我也试过用这个:
table = soup.find_all('table')[x]
当 x 为 0 时,我得到一个我不想要的表。当 x 为 1 时,我得到一个 index is out of range 错误。
我尝试过使用 lxml、html5lib 和 html.parser,但它们都没有改变这一点。
如果有任何其他有效的方法来解决这个问题(我正在尝试在这个网站上获取活跃的案例,因为该州没有每天发布它,约翰霍普金斯大学也没有),请告诉我.
附:我认为问题出在请求模块上,因为当我将带有请求命令的页面下载到文本文件时,该部分也丢失了。
【问题讨论】:
-
要获取表中的所有数据吗?
-
那很好,但我真的只需要活动案例(或者恢复的案例,它们是可以互换的)。
标签: html python-3.x web-scraping beautifulsoup python-requests