【发布时间】:2021-10-08 21:14:16
【问题描述】:
我正在尝试在 pandas 中导入以下 excel 文件: https://rbnz.govt.nz/-/media/ReserveBank/Files/Statistics/tables/b2/hb2-daily-close.xlsx
我尝试了以下方法:
url="https://www.rbnz.govt.nz/-/media/ReserveBank/Files/Statistics/tables/b2/hb2-daily.xlsx"
df = pd.read_excel(url,sheet_name="Data", header=4, usecols="A,H")
但我收到以下 HTTPError:HTTP 错误 503:服务暂时不可用
我认为问题在于缺少请求标头,所以我尝试了以下方法,但我一直收到相同的错误..
url="https://www.rbnz.govt.nz/-/media/ReserveBank/Files/Statistics/tables/b2/hb2-daily-close.xlsx"
req = Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:77.0) Gecko/20100101 Firefox/77.0')
content = urlopen(req)
df = pd.read_excel(content,sheet_name="Data", header=4, usecols="A,H")
有什么想法吗? 谢谢
PS 看起来该网站受 Cloudfare 保护。 How to get around Newspaper throwing 503 exceptions for certain webpages 硒可能是这里唯一的解决方案
【问题讨论】:
标签: python excel pandas web-scraping python-requests