【问题标题】:GSutil resume download using tracker filesGSutil 使用跟踪器文件恢复下载
【发布时间】:2016-03-23 05:27:26
【问题描述】:

我正在开发一个 unix shell 脚本,它将文件从 GCS 下载到我的服务器上。我正在使用该命令,它工作得很好。

python gsutil -m cp -R gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath  

我正在下载的所有文件的总大小为 30gb。 我通过在 .boto 文件中设置 state_dir 在服务器上的特定位置创建跟踪器文件。

我想建立重试机制,以便如果某些下载没有完成,而不是重新启动整个作业,只应该下载那些失败或在上次运行中没有下载的文件。

请指教

【问题讨论】:

  • 您是否需要一种仅从每个存储桶中复制某些文件的解决方案,或者您的目标是复制所有文件?
  • 只复制当天的特定文件。举个例子,每个小时都有文件,所以我们需要复制所有 24 个文件以供较早日期

标签: python shell unix gsutil


【解决方案1】:

您可以使用 cp 的清单文件功能来执行此操作:

python gsutil -m cp -R -L manifest.log gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath

您执行的每个唯一 cp 命令都需要一个单独的清单文件。详情请查看gsutil help cp 中的“-L”选项文档。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-04-21
    • 1970-01-01
    • 1970-01-01
    • 2011-05-29
    • 2010-09-05
    • 2011-01-20
    • 2010-12-29
    相关资源
    最近更新 更多