【发布时间】:2017-01-05 06:18:42
【问题描述】:
通过直接创建 Pojo 的 Parquet Schema 将 Parquet Format 写入 HDFS(使用 Java API)的简单方法是什么,无需使用 avro 和 MR?
我发现的样本已经过时,使用过时的方法也使用了 Avro、spark 或 MR 之一。
【问题讨论】:
通过直接创建 Pojo 的 Parquet Schema 将 Parquet Format 写入 HDFS(使用 Java API)的简单方法是什么,无需使用 avro 和 MR?
我发现的样本已经过时,使用过时的方法也使用了 Avro、spark 或 MR 之一。
【问题讨论】:
实际上,没有很多示例可用于在没有外部框架帮助的情况下读取/写入 Apache parquet 文件。
核心 parquet 库是 parquet-column ,您可以在其中找到一些直接读/写的测试文件:https://github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/apache/parquet/io/TestColumnIO.java
然后,您只需对 HDFS 文件使用相同的功能。你可以关注这个 SOW 问题:Accessing files in HDFS using Java
更新:响应 API 的弃用部分:AvroWriteSupport 应替换为 AvroParquetWriter 并且我检查 ParquetWriter 它没有被弃用并且可以安全使用。
问候,
洛伊克
【讨论】: