【问题标题】:How does spark decides column order when reading Parquet file读取Parquet文件时spark如何决定列顺序
【发布时间】:2020-12-25 19:43:19
【问题描述】:

我有一个目录,其中有 2 个具有相同架构但列顺序不同的镶木地板文件 我想知道spark在读取目录时如何决定列顺序

输入目录

读取 1.parquet 文件时的数据帧 1

读取 2.parquet 文件时的数据帧 2

读取完整目录时

【问题讨论】:

    标签: dataframe apache-spark apache-spark-sql parquet


    【解决方案1】:

    列顺序取决于架构元数据,您可以使用 parquet 查看器检查每个文件。

    您还可以在读取 parquet 文件时提供架构,以始终获取相同的列顺序。

    val parquetSchema: Structype = new structype()
    .add("id",IntegerType,true)
    .add("login",StringType,true)
    
    spark.read.schema(parquetSchema).parquet(...)
    

    【讨论】:

      猜你喜欢
      • 2018-10-04
      • 2020-10-28
      • 1970-01-01
      • 2015-11-27
      • 2015-12-19
      • 1970-01-01
      • 2015-08-05
      • 2022-01-13
      • 1970-01-01
      相关资源
      最近更新 更多