从页面获取带有动态下载链接的文件答案

【问题标题】：get file with dynamic download link from page从页面获取带有动态下载链接的文件
【发布时间】：2015-09-14 07:58:50
【问题描述】：

我需要获取过去 2 年有关市场数据的所有文件，这些数据位于不同 URL 中的每日 xls 文件中。例如：http://www.atsenergo.ru/nreport?rname=trade_zsp&rdate=20150914

问题来自与文件下载相关的动态链接，即： http://www.atsenergo.ru/nreport?fid=1FA2D73D285FD4DCE05010AC47064410

有没有办法爬取所有页面（使用日期字段轻松完成）并获取每个链接的 xls 文件？

看看我试过的其他问题：

import urllib.request
response = urllib.request.urlopen('http://www.atsenergo.ru/nreport?rname=trade_zsp&rdate=20150914')
content_type = response.info().get('Content-Type')
print(content_type)

尝试获取 'application/octet-stream' 类型并找到链接，但我只得到 'text/html;charset=UTF-8'

【问题讨论】：

请提及到目前为止您尝试了什么？代码示例将不胜感激。

标签： python web-scraping web-crawler python-requests

【解决方案1】：

首先，您需要遍历日期，因此您必须设置开始日期（2 年前）并逐日添加。每天您请求网页并解析它以获取 xml 文件的链接（当您搜索以 xsl 结尾的 a-Tag 时应该很容易）。然后你有网址，你可以下载给定日期的 xls。

内容类型不是您要查找的内容。

【讨论】：