GSutil 使用跟踪器文件恢复下载答案

【问题标题】：GSutil resume download using tracker filesGSutil 使用跟踪器文件恢复下载
【发布时间】：2016-03-23 05:27:26
【问题描述】：

我正在开发一个 unix shell 脚本，它将文件从 GCS 下载到我的服务器上。我正在使用该命令，它工作得很好。

python gsutil -m cp -R gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath

我正在下载的所有文件的总大小为 30gb。我通过在 .boto 文件中设置 state_dir 在服务器上的特定位置创建跟踪器文件。

我想建立重试机制，以便如果某些下载没有完成，而不是重新启动整个作业，只应该下载那些失败或在上次运行中没有下载的文件。

请指教

【问题讨论】：

【解决方案1】：

您可以使用 cp 的清单文件功能来执行此操作：

python gsutil -m cp -R -L manifest.log gs://$bucketId/*$fileListTobeDownloaded*$downloadedFileDate* $downloadFilePath

您执行的每个唯一 cp 命令都需要一个单独的清单文件。详情请查看gsutil help cp 中的“-L”选项文档。

【讨论】：