【问题标题】:Parquet: difference between metadata and common_metadataParquet:元数据和 common_metadata 之间的区别
【发布时间】:2016-08-12 21:41:42
【问题描述】:

在编写元数据文件时,ThriftParquetWriter 实际上会生成两个文件:_metadata_common_metadata

https://github.com/apache/parquet-mr/blob/master/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileWriter.java

这两个文件有什么区别?它们有不同的文件大小,所以肯定有区别

谢谢

【问题讨论】:

    标签: thrift parquet


    【解决方案1】:

    在查看https://github.com/apache/parquet-mr/blob/master/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileWriter.java 的源代码时,我觉得:

    _common_metadata 包含该目录中 parquet 文件的合并模式

    _metadata 将仅包含该目录中最近写入的 parquet 文件的架构

    【讨论】:

      【解决方案2】:

      情况似乎并非如此。我只在分层集中看到 _common_metadata (其中有编码为目录名称的列)。 _common_metadata 包含整个表的架构,包括那些分层列,而 _metadata 包含用于部分文件的架构(省略分层列),还包括所有文件的每个文件列统计信息(最小值、最大值等),及其完整的相对路径名。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2018-05-08
        • 2015-10-05
        • 2011-04-11
        • 2022-06-11
        • 2023-03-03
        • 2016-12-05
        • 2011-07-16
        • 2014-10-10
        相关资源
        最近更新 更多