【发布时间】:2020-08-21 23:38:43
【问题描述】:
我有几个带有标题的 csv 文件,但我发现有些文件有不同的列顺序。有没有办法用 Spark 来处理这个问题,我可以为每个文件定义选择顺序,这样主 DF 就不会出现 col x 可能具有 col y 值的不匹配?
我目前的阅读 -
val masterDF = spark.read.option("header", "true").csv(allFiles:_*)
【问题讨论】:
标签: scala apache-spark pyspark