【发布时间】:2017-01-21 08:30:33
【问题描述】:
尝试使用 Google DataFlow Java SDK,但对于我的用例,我的输入文件是 .parquet 文件。
找不到任何开箱即用的功能来将 parquet 作为有界数据源读入 DataFlow 管道。 据我了解,我可以创建一个编码器和/或接收器,有点像基于Parquet Reader 的 AvroIO。
有没有人可以建议如何以最佳方式实施它?或指出我的参考与 How-to \ 示例?
感谢您的帮助!
--A
【问题讨论】:
标签: avro google-cloud-dataflow parquet apache-beam