【问题标题】:Does apache beam python SDK fileio.ReadMatches support compressed files?apache beam python SDK fileio.ReadMatches 是否支持压缩文件?
【发布时间】:2020-04-08 11:05:51
【问题描述】:

我可以在 Java SDK 文档中看到我们可以在 FileIO.ReadableFile 实用程序类中指定压缩 - https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io/FileIO.ReadableFile.html#open--

但是,我使用 Python,它可用作参数 (apache_beam.io.fileio.ReadMatches(compression=None, skip_directories=True)),但浏览源代码我认为它没有任何作用 - https://beam.apache.org/releases/pydoc/2.16.0/apache_beam.io.fileio.html#apache_beam.io.fileio.ReadMatches

有人可以确认我是否可以使用此类打开 bz2 文件吗?

我特别需要它,所以我可以使用元数据(文件名的元数据路径),所以如果有人对如何将文件名添加到我的每一行作为侧面输入有一些创意,请也分享这些。

【问题讨论】:

  • 从 2.18.0 开始,将支持压缩文件。

标签: python google-cloud-platform google-cloud-dataflow apache-beam


【解决方案1】:

目前还不可能(正如@Pablo 的回答),但是,如果你想现在开始,你可以从decompressorBulkTemplate of Dataflow 开始。行数很多,但代码不难理解。

不要写出来,解压后处理你的文件。这是从今天开始的一个很好的起点。

【讨论】:

  • 感谢您的确认。我猜 Python 中没有类似的模板?
  • 遗憾的是没有。该模板最初是按原样使用的,作为 Dataflow 模板控制台中的模板。代码是开放的,但它是用 Java 编写的。对不起。
【解决方案2】:

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2012-08-04
    • 2023-03-19
    • 1970-01-01
    • 1970-01-01
    • 2013-11-29
    • 1970-01-01
    • 2017-10-24
    • 2016-04-27
    相关资源
    最近更新 更多