【发布时间】:2020-12-25 19:43:19
【问题描述】:
我有一个目录,其中有 2 个具有相同架构但列顺序不同的镶木地板文件 我想知道spark在读取目录时如何决定列顺序
读取 1.parquet 文件时的数据帧 1
读取 2.parquet 文件时的数据帧 2
【问题讨论】:
标签: dataframe apache-spark apache-spark-sql parquet
我有一个目录,其中有 2 个具有相同架构但列顺序不同的镶木地板文件 我想知道spark在读取目录时如何决定列顺序
读取 1.parquet 文件时的数据帧 1
读取 2.parquet 文件时的数据帧 2
【问题讨论】:
标签: dataframe apache-spark apache-spark-sql parquet
列顺序取决于架构元数据,您可以使用 parquet 查看器检查每个文件。
您还可以在读取 parquet 文件时提供架构,以始终获取相同的列顺序。
val parquetSchema: Structype = new structype()
.add("id",IntegerType,true)
.add("login",StringType,true)
spark.read.schema(parquetSchema).parquet(...)
【讨论】: