【发布时间】:2015-09-14 07:58:50
【问题描述】:
我需要获取过去 2 年有关市场数据的所有文件,这些数据位于不同 URL 中的每日 xls 文件中。例如:http://www.atsenergo.ru/nreport?rname=trade_zsp&rdate=20150914
问题来自与文件下载相关的动态链接,即: http://www.atsenergo.ru/nreport?fid=1FA2D73D285FD4DCE05010AC47064410
有没有办法爬取所有页面(使用日期字段轻松完成)并获取每个链接的 xls 文件?
看看我试过的其他问题:
import urllib.request
response = urllib.request.urlopen('http://www.atsenergo.ru/nreport?rname=trade_zsp&rdate=20150914')
content_type = response.info().get('Content-Type')
print(content_type)
尝试获取 'application/octet-stream' 类型并找到链接,但我只得到 'text/html;charset=UTF-8'
【问题讨论】:
-
请提及到目前为止您尝试了什么?代码示例将不胜感激。
标签: python web-scraping web-crawler python-requests