谷歌数据流作业根据文件模式从云存储中读取 avro 文件答案

【问题标题】：Google dataflow job to read avro files from Cloud storage based on file patterns谷歌数据流作业根据文件模式从云存储中读取 avro 文件
【发布时间】：2020-11-06 19:21:01
【问题描述】：

假设 gcs 中的文件以下列格式存储： -.avro 。尝试使用 Apache Beam 的 FileIO.matchAll 库在谷歌数据流作业中使用读取文件来读取基于时间戳间隔的文件。示例，gcs 中的文件：

   gs://test-bucket/abc_20200101000000.txt
    gs://test-bucket/abc_20200201000000.txt
    gs://test-bucket/abc_20200301000000.txt

现在我们要获取大于时间戳 20200101000000 直到当前时间戳的所有文件，我可以使用什么文件模式？

【问题讨论】：

标签： java google-cloud-dataflow

【解决方案1】：

我不确定您是否可以使用正则表达式执行此操作，但您应该能够将ParDo 添加到您的管道中，该管道遵循FileIO.matchAll 以根据文件名（MatchResult.Metadata 类型）过滤元素（类型为MatchResult.Metadata） MatchResult.Metadata.resourceId())。

【讨论】：