您如何在 hdfs 中查看文件的行组答案

【问题标题】：How do you see the row groups of your files in hdfs您如何在 hdfs 中查看文件的行组
【发布时间】：2019-04-16 14:43:53
【问题描述】：

我在 jira 中遇到了这个 page，我想知道如何获得行组的相同视图。像这样：

hdfs 中是否有可以向我显示此内容的命令？

【问题讨论】：

【解决方案1】：

我报告了 JIRA。我用过

parquet-tools meta /path/to/file.parquet | grep "row group"

然后手动编辑输出以对齐数字。或者，您可以附加 | column -t 进行一些基本对齐。尽管在这种情况下数字将左对齐而不是右对齐，但至少它们会在另一个下对齐。

parquet-tools 本身是 parquet-mr 中未记录的帮助脚本 included。而不是使用它，你可以调用

hadoop jar /path/to/parquet-tools-<VERSION>.jar

在 Hadoop 集群上或

java -jar /path/to/parquet-tools-<VERSION>.jar

本地。对于后者，您必须使用本地配置文件构建镶木地板，即，

mvn package -Plocal

这在build instructions 中有描述。

【讨论】：

【解决方案2】：

我猜它是parquet-tools 的输出，经过grep 筛选，就像

  $ parquet-tools meta --debug <file-name> | grep "row group"

【讨论】：