【发布时间】:2020-04-08 11:05:51
【问题描述】:
我可以在 Java SDK 文档中看到我们可以在 FileIO.ReadableFile 实用程序类中指定压缩 - https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io/FileIO.ReadableFile.html#open--
但是,我使用 Python,它可用作参数 (apache_beam.io.fileio.ReadMatches(compression=None, skip_directories=True)),但浏览源代码我认为它没有任何作用 - https://beam.apache.org/releases/pydoc/2.16.0/apache_beam.io.fileio.html#apache_beam.io.fileio.ReadMatches
有人可以确认我是否可以使用此类打开 bz2 文件吗?
我特别需要它,所以我可以使用元数据(文件名的元数据路径),所以如果有人对如何将文件名添加到我的每一行作为侧面输入有一些创意,请也分享这些。
【问题讨论】:
-
从 2.18.0 开始,将支持压缩文件。
标签: python google-cloud-platform google-cloud-dataflow apache-beam