【发布时间】:2016-08-12 21:41:42
【问题描述】:
在编写元数据文件时,ThriftParquetWriter 实际上会生成两个文件:_metadata 和 _common_metadata
这两个文件有什么区别?它们有不同的文件大小,所以肯定有区别
谢谢
【问题讨论】:
在编写元数据文件时,ThriftParquetWriter 实际上会生成两个文件:_metadata 和 _common_metadata
这两个文件有什么区别?它们有不同的文件大小,所以肯定有区别
谢谢
【问题讨论】:
在查看https://github.com/apache/parquet-mr/blob/master/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileWriter.java 的源代码时,我觉得:
_common_metadata 包含该目录中 parquet 文件的合并模式
_metadata 将仅包含该目录中最近写入的 parquet 文件的架构
【讨论】:
情况似乎并非如此。我只在分层集中看到 _common_metadata (其中有编码为目录名称的列)。 _common_metadata 包含整个表的架构,包括那些分层列,而 _metadata 包含用于部分文件的架构(省略分层列),还包括所有文件的每个文件列统计信息(最小值、最大值等),及其完整的相对路径名。
【讨论】: