【问题标题】:Scheduled download of files from multiple URLs预定从多个 URL 下载文件
【发布时间】:2020-08-03 22:11:23
【问题描述】:

每月一次,我的团队需要访问多个来源并下载各种文档。我的目标是找到一个工具或创建一个脚本,可以按计划与多个来源联系,下载最新的文档,并覆盖以前的副本。

由于我的 Python 技能相当生疏,我希望已经存在一些东西,我至少可以将其用作起点。如果没有,我将不胜感激作为起点的一些方向。使用 Python 执行此操作的方法似乎是通过请求?

【问题讨论】:

  • Once a month 您必须安排程序才能运行。所以,你需要一个调度器download various documentation. 你可以使用 http 库 来下载东西。 over-write the previous copy IF 已下载,删除前一个并保存当前,ELSE 什么也不做。 do this with Python would be through requests 是的,这是其中一种方式。你也可以在没有 Python 的情况下做到这一点。意见:CURL 摇滚!

标签: python curl download python-requests wget


【解决方案1】:

每个文档/URL 一行,从 crontab 或类似文件中运行。如果服务器的资源版本比本地资源的版本新,则会有条件地下载 URL:

curl --remote-name 
  --time-cond file.doc 
  https://example.com/p/file.doc

如果您有 curl 7.68.0 或更高版本,您甚至可以执行 etag 条件,使其与时间相互依赖:

curl --remote-name 
  --etag-compare etags.txt 
  --etag-save etags.txt 
  https://example.com/p/file.doc

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-28
    相关资源
    最近更新 更多