【发布时间】:2021-05-18 07:49:35
【问题描述】:
我有一个如下的数据框
id, path
id1, path1
id2, path2
id3, path3
我想读取上述路径中的 parquet 文件,并在将数据读取到其各自的输出后添加 id 列,最后合并所有结果
代码:
case class cls_lyr(id: String, path: String)
val selColDf = df.select("id", "path").dropDuplicates
val newdf = selColDf.as[cls_lyr].take(selColDf.count.toInt).foreach(t => {
var id = t.id
var path= t.path
val lkpDf = spark.read.parquet(path)
val finalDf = lkpDf.withColumn("portf_id", lit(id))
}
)
如何合并来自 3 条路径的数据?有没有其他更好的方法可以做到这一点?
【问题讨论】:
标签: scala apache-spark