【发布时间】:2021-03-29 13:08:37
【问题描述】:
我正在汇总 COVID 疫苗接种数据,并尝试使用 Python 从该网站上刮取疫苗编号(第一个 - “接受 1 剂疫苗的人”)。我正在尝试使用 BeautifulSoup 提取 HTML,然后通过 XPath 或属性进行搜索。首先,当然,我使用 BeautifulSoup 解析页面:
rhode_island = BeautifulSoup(requests.get('https://ri-department-of-health-covid-19-data-rihealth.hub.arcgis.com').content, 'html.parser')
但是这个 HTML 输出看起来与页面上的实际 HTML 完全不同——相反,它只是一行接一行的内容:
%22%5D%7D%2C%22validationClasses%22%3A%7B%22fieldSuccess%22%3A%5B%22field-success%22%5D%2C%22fieldError%22%3A%5B%22field-error%22%5D%2C%22controlSuccess%22%3A%5B%22control-success%22%5D%2C%
我不确定这里发生了什么——我尝试了几种不同的方法(LXML、Beautiful Soup),但都返回了这个奇怪的结果。结果,我无法抓取我正在寻找的信息,因为它似乎不是真正的 HTML(我已经尝试过,但抓取失败)。
有人知道我可以做些什么来抓取这些数据吗?
【问题讨论】:
标签: python web-scraping beautifulsoup lxml