如何使用 pyspark 获取 parquet 文件的列名及其数据类型？

【问题标题】：how to get the column names and their datatypes of parquet file using pyspark?如何使用 pyspark 获取 parquet 文件的列名及其数据类型？
【发布时间】：2016-04-14 05:27:27
【问题描述】：

我的 hadoop 集群上有一个 parquet 文件，我想捕获列名及其数据类型并将其写入文本文件。如何使用 pyspark 获取 parquet 文件的列名及其数据类型。

【问题讨论】：

标签： apache-spark pyspark

【解决方案1】：

您可以简单地读取文件并使用schema 访问个人fields：

sqlContext.read.parquet(path_to_parquet_file).schema.fields

【讨论】：

【解决方案2】：

使用 dataframe.printSchema() - 以树格式打印出架构。

df.printSchema() 根 |-- 年龄：整数（可为空=真） |-- 名称：字符串（可为空=真）

您可以重定向程序的输出并将其捕获到文本文件中。

【讨论】：