【发布时间】:2016-04-14 05:27:27
【问题描述】:
我的 hadoop 集群上有一个 parquet 文件,我想捕获列名及其数据类型并将其写入文本文件。如何使用 pyspark 获取 parquet 文件的列名及其数据类型。
【问题讨论】:
标签: apache-spark pyspark
我的 hadoop 集群上有一个 parquet 文件,我想捕获列名及其数据类型并将其写入文本文件。如何使用 pyspark 获取 parquet 文件的列名及其数据类型。
【问题讨论】:
标签: apache-spark pyspark
您可以简单地读取文件并使用schema 访问个人fields:
sqlContext.read.parquet(path_to_parquet_file).schema.fields
【讨论】:
使用 dataframe.printSchema() - 以树格式打印出架构。
df.printSchema() 根 |-- 年龄:整数(可为空=真) |-- 名称:字符串(可为空=真)
您可以重定向程序的输出并将其捕获到文本文件中。
【讨论】: