【发布时间】:2020-08-13 15:58:10
【问题描述】:
我的 GCP 云存储桶中有很多 .tar 文件。每个 .tar 文件都有多个层。我想使用 GCP Dataflow 解压缩这些 .tar 文件并将它们放回另一个 GCP 存储桶。
我找到了 Google 提供的批量解压缩云存储文件的实用程序模板,但它不支持 .tar 文件扩展名。
也许我应该在上传到云端之前尝试解压缩文件,或者 Beam 中是否存在其他内容?
每个 tar 文件未压缩大约 15 TB。
【问题讨论】:
标签: compression google-cloud-dataflow apache-beam tar