【发布时间】:2021-07-26 15:58:53
【问题描述】:
我必须合并许多 spark DataFrame。合并后,我想在具有相同名称的多个列之间执行合并。
我能够在 question 之后创建一个最小示例。
但是,我需要一段更通用的代码来支持:一组要合并的变量(在示例中为 set_vars = set(('var1','var2')))和多个连接键(在示例中为 join_keys = set(('id')))。
在pyspark 中是否有更简洁(更通用)的方法来获得此结果?
df1 = spark.createDataFrame([
( 1, None , "aa"),
( 2 , "a", None ),
( 3 , "b", None),
( 4 , "h", None),],
"id int, var1 string, var2 string",
)
df2 = spark.createDataFrame([
( 1, "f" , "Ba"),
( 2 , "a", "bb" ),
( 3 , "b", None),],
"id int, var1 string, var2 string",
)
df1 = df1.alias("df1")
df2 = df2.alias("df2")
df3 = df1.join(df2, df1.id == df2.id, how='left').withColumn("var1_", coalesce("df1.var1", "df2.var1")).drop("var1").withColumnRenamed("var1_", "var1").withColumn("var2_", coalesce("df1.var2", "df2.var2")).drop("var2").withColumnRenamed("var2_", "var2")
【问题讨论】:
标签: python pyspark azure-databricks coalesce