【问题标题】:how to get the column names and their datatypes of parquet file using pyspark?如何使用 pyspark 获取 parquet 文件的列名及其数据类型?
【发布时间】:2016-04-14 05:27:27
【问题描述】:

我的 hadoop 集群上有一个 parquet 文件,我想捕获列名及其数据类型并将其写入文本文件。如何使用 pyspark 获取 parquet 文件的列名及其数据类型。

【问题讨论】:

    标签: apache-spark pyspark


    【解决方案1】:

    您可以简单地读取文件并使用schema 访问个人fields

    sqlContext.read.parquet(path_to_parquet_file).schema.fields
    

    【讨论】:

      【解决方案2】:

      使用 dataframe.printSchema() - 以树格式打印出架构。

      df.printSchema() 根 |-- 年龄:整数(可为空=真) |-- 名称:字符串(可为空=真)

      您可以重定向程序的输出并将其捕获到文本文件中。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 2015-05-10
        • 2017-12-15
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多