【发布时间】:2019-04-16 14:43:53
【问题描述】:
【问题讨论】:
标签: apache-spark hadoop hdfs parquet
【问题讨论】:
标签: apache-spark hadoop hdfs parquet
我报告了 JIRA。我用过
parquet-tools meta /path/to/file.parquet | grep "row group"
然后手动编辑输出以对齐数字。或者,您可以附加 | column -t 进行一些基本对齐。尽管在这种情况下数字将左对齐而不是右对齐,但至少它们会在另一个下对齐。
parquet-tools 本身是 parquet-mr 中未记录的帮助脚本 included。而不是使用它,你可以调用
hadoop jar /path/to/parquet-tools-<VERSION>.jar
在 Hadoop 集群上或
java -jar /path/to/parquet-tools-<VERSION>.jar
本地。对于后者,您必须使用本地配置文件构建镶木地板,即,
mvn package -Plocal
这在build instructions 中有描述。
【讨论】:
parqet-tools 只是一个执行相同操作的 shell 脚本。我用有关此的详细信息扩展了我的答案。
我猜它是parquet-tools 的输出,经过grep 筛选,就像
$ parquet-tools meta --debug <file-name> | grep "row group"
【讨论】: