【发布时间】:2021-02-28 08:11:57
【问题描述】:
我正在使用 Apache Beam Python SDK,我正在尝试使用 apache_beam.io.parquetio 从 Parquet 文件中读取数据,但我还想将文件名(或路径)添加到数据中,因为它也包含数据。我查看了建议的模式here 并读到 Parquetio 与 fileio 相似,但它似乎没有实现允许遍历文件并将其添加到聚会的功能。
有人想出一个好方法来实现这个吗?
谢谢!
【问题讨论】:
-
你使用哪个 SDK?
-
@AlexeyRomanenko - Python!
标签: google-cloud-dataflow apache-beam parquet