【问题标题】:get file with dynamic download link from page从页面获取带有动态下载链接的文件
【发布时间】:2015-09-14 07:58:50
【问题描述】:

我需要获取过去 2 年有关市场数据的所有文件,这些数据位于不同 URL 中的每日 xls 文件中。例如:http://www.atsenergo.ru/nreport?rname=trade_zsp&rdate=20150914

问题来自与文件下载相关的动态链接,即: http://www.atsenergo.ru/nreport?fid=1FA2D73D285FD4DCE05010AC47064410

有没有办法爬取所有页面(使用日期字段轻松完成)并获取每个链接的 xls 文件?

看看我试过的其他问题:

import urllib.request
response = urllib.request.urlopen('http://www.atsenergo.ru/nreport?rname=trade_zsp&rdate=20150914')
content_type = response.info().get('Content-Type')
print(content_type)

尝试获取 'application/octet-stream' 类型并找到链接,但我只得到 'text/html;charset=UTF-8'

【问题讨论】:

  • 请提及到目前为止您尝试了什么?代码示例将不胜感激。

标签: python web-scraping web-crawler python-requests


【解决方案1】:

首先,您需要遍历日期,因此您必须设置开始日期(2 年前)并逐日添加。 每天您请求网页并解析它以获取 xml 文件的链接(当您搜索以 xsl 结尾的 a-Tag 时应该很容易)。 然后你有网址,你可以下载给定日期的 xls。

内容类型不是您要查找的内容。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-06-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-02-26
    • 2013-09-02
    • 2011-02-11
    • 1970-01-01
    相关资源
    最近更新 更多