【发布时间】:2019-05-29 19:22:27
【问题描述】:
我读了一个镶木地板:
df = spark.read.parquet(file_name)
并获取具有以下内容的列:
df.columns
并返回一个列列表 ['col1', 'col2', 'col3']
我读到 parquet 格式能够在文件中存储一些元数据。
有没有办法存储和读取额外的元数据,例如,附上每列的人工描述?
谢谢。
【问题讨论】:
-
看起来这就是 parquet 文件的持久化方式(没有标题或 'col1 等)。我先检查一下。默认情况下,它存储列名和类型。
标签: apache-spark pyspark apache-spark-sql parquet