【问题标题】:Google DataFlow & Reading Parquet filesGoogle DataFlow 和读取 Parquet 文件
【发布时间】:2017-01-21 08:30:33
【问题描述】:

尝试使用 Google DataFlow Java SDK,但对于我的用例,我的输入文件是 .parquet 文件。

找不到任何开箱即用的功能来将 parquet 作为有界数据源读入 DataFlow 管道。 据我了解,我可以创建一个编码器和/或接收器,有点像基于Parquet Reader 的 AvroIO。

有没有人可以建议如何以最佳方式实施它?或指出我的参考与 How-to \ 示例?

感谢您的帮助!

--A

【问题讨论】:

    标签: avro google-cloud-dataflow parquet apache-beam


    【解决方案1】:

    您可以在 https://issues.apache.org/jira/browse/BEAM-214 找到 ParquetIO(您称之为开箱即用的功能)的进展。

    与此同时,应该可以使用BeamDataflow SDKs 中的Hadoop FileInputFormat 读取Parquet 文件。

    【讨论】:

      猜你喜欢
      • 2022-12-20
      • 1970-01-01
      • 1970-01-01
      • 2018-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多