【问题标题】:How do you see the row groups of your files in hdfs您如何在 hdfs 中查看文件的行组
【发布时间】:2019-04-16 14:43:53
【问题描述】:

我在 jira 中遇到了这个 page,我想知道如何获得行组的相同视图。像这样:

hdfs 中是否有可以向我显示此内容的命令?

【问题讨论】:

    标签: apache-spark hadoop hdfs parquet


    【解决方案1】:

    我报告了 JIRA。我用过

    parquet-tools meta /path/to/file.parquet | grep "row group"
    

    然后手动编辑输出以对齐数字。或者,您可以附加 | column -t 进行一些基本对齐。尽管在这种情况下数字将左对齐而不是右对齐,但至少它们会在另一个下对齐。

    parquet-tools 本身是 parquet-mr 中未记录的帮助脚本 included。而不是使用它,你可以调用

    hadoop jar /path/to/parquet-tools-<VERSION>.jar
    

    在 Hadoop 集群上或

    java -jar /path/to/parquet-tools-<VERSION>.jar
    

    本地。对于后者,您必须使用本地配置文件构建镶木地板,即,

    mvn package -Plocal
    

    这在build instructions 中有描述。

    【讨论】:

    • 我从源代码构建了 parquet 工具,但似乎我必须使用 java 命令来运行构建的 jar。你如何获得这样的 parquet-tools 可执行文件?
    • parqet-tools 只是一个执行相同操作的 shell 脚本。我用有关此的详细信息扩展了我的答案。
    【解决方案2】:

    我猜它是parquet-tools 的输出,经过grep 筛选,就像

      $ parquet-tools meta --debug <file-name> | grep "row group"
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-11-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多