【问题标题】:Google dataflow job to read avro files from Cloud storage based on file patterns谷歌数据流作业根据文件模式从云存储中读取 avro 文件
【发布时间】:2020-11-06 19:21:01
【问题描述】:

假设 gcs 中的文件以下列格式存储: -.avro 。尝试使用 Apache Beam 的 FileIO.matchAll 库在谷歌数据流作业中使用读取文件来读取基于时间戳间隔的文件。 示例,gcs 中的文件:

   gs://test-bucket/abc_20200101000000.txt
    gs://test-bucket/abc_20200201000000.txt
    gs://test-bucket/abc_20200301000000.txt

现在我们要获取大于时间戳 20200101000000 直到当前时间戳的所有文件,我可以使用什么文件模式?

【问题讨论】:

    标签: java google-cloud-dataflow


    【解决方案1】:

    我不确定您是否可以使用正则表达式执行此操作,但您应该能够将ParDo 添加到您的管道中,该管道遵循FileIO.matchAll 以根据文件名(MatchResult.Metadata 类型)过滤元素(类型为MatchResult.MetadataMatchResult.Metadata.resourceId())。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-08-16
      • 2023-03-30
      • 1970-01-01
      • 2019-08-10
      相关资源
      最近更新 更多