【问题标题】:Write Parquet format to HDFS using Java API with out using Avro and MR使用 Java API 将 Parquet 格式写入 HDFS,而不使用 Avro 和 MR
【发布时间】:2017-01-05 06:18:42
【问题描述】:

通过直接创建 Pojo 的 Parquet SchemaParquet Format 写入 HDFS(使用 Java API)的简单方法是什么,无需使用 avroMR

我发现的样本已经过时,使用过时的方法也使用了 Avro、spark 或 MR 之一。

【问题讨论】:

    标签: java hadoop hdfs parquet


    【解决方案1】:

    实际上,没有很多示例可用于在没有外部框架帮助的情况下读取/写入 Apache parquet 文件。

    核心 parquet 库是 parquet-column ,您可以在其中找到一些直接读/写的测试文件:https://github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/apache/parquet/io/TestColumnIO.java

    然后,您只需对 HDFS 文件使用相同的功能。你可以关注这个 SOW 问题:Accessing files in HDFS using Java

    更新:响应 API 的弃用部分:AvroWriteSupport 应替换为 AvroParquetWriter 并且我检查 ParquetWriter 它没有被弃用并且可以安全使用。

    问候,

    洛伊克

    【讨论】:

    • 感谢您的帮助。我认为提供的链接理解起来有点复杂,可能是因为我是新手。所以我选择了 avro 模式,但同样有一些类已被弃用,“AvroWriteSupport”和“ParquetWriter”。上述课程的替代方案是什么。示例代码来自here
    • 你可以使用builder来构建writer对象,而不是使用constructor。
    猜你喜欢
    • 2017-04-06
    • 2016-06-29
    • 1970-01-01
    • 2017-05-17
    • 2017-03-17
    • 2015-10-19
    • 2017-02-13
    • 2014-06-22
    相关资源
    最近更新 更多