【发布时间】:2020-12-24 07:58:37
【问题描述】:
我正在使用 apache Beam 实现一个批处理管道,它可以解压缩 json 文件,对其进行预处理并将它们存储回文件系统中的给定位置。
文件可以使用 ZIP 或 GZIP 算法压缩..
GZIP 文件解压效果很好,但 ZIP 文件解压失败...经过调查,我发现只有 JAVA SDK 支持 GZIP、BZIP2 和 DEFLATE 压缩类型,但不存在 python 实现。
有没有办法在不修补 apache beam Python SDK 的情况下解决这个问题?
【问题讨论】:
-
您可以使用 pcollection 创建一个只有文件名的管道,并可以在自定义 DoFn 中解压缩文件。
标签: python apache-beam