【发布时间】:2016-03-23 05:27:26
【问题描述】:
我正在开发一个 unix shell 脚本,它将文件从 GCS 下载到我的服务器上。我正在使用该命令,它工作得很好。
python gsutil -m cp -R gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath
我正在下载的所有文件的总大小为 30gb。 我通过在 .boto 文件中设置 state_dir 在服务器上的特定位置创建跟踪器文件。
我想建立重试机制,以便如果某些下载没有完成,而不是重新启动整个作业,只应该下载那些失败或在上次运行中没有下载的文件。
请指教
【问题讨论】:
-
您是否需要一种仅从每个存储桶中复制某些文件的解决方案,或者您的目标是复制所有文件?
-
只复制当天的特定文件。举个例子,每个小时都有文件,所以我们需要复制所有 24 个文件以供较早日期