如何基于列合并两个数据框 spark java/scala？答案

【问题标题】：How to merge two dataframes spark java/scala based on a column?如何基于列合并两个数据框 spark java/scala？
【发布时间】：2018-10-19 07:57:08
【问题描述】：

我有两个数据框 DF1 和 DF2，其中 id 作为唯一列， DF2 可能包含 DF1 现有记录的新记录和更新值，当我们合并两个数据框时，结果应该包括新记录，并且具有更新值的旧记录保持原样。

输入示例：

id   name
10   abc
20   tuv
30   xyz

和

id   name
10   abc
20   pqr
40   lmn

当我合并这两个数据框时，我希望结果为：

id   name
10   abc
20   pqr
30   xyz
40   lmn

【问题讨论】：

标签： java scala apache-spark dataframe apache-spark-sql

【解决方案1】：

df1.join(df2, Seq("id"), "leftanti").union(df2).show

| id|name|
+---+----+
| 30| xyz|
| 10| abc|
| 20| pqr|
| 40| lmn|
+---+----+

【讨论】：

这不是答案，而是对@Shaido 答案的评论。你只更新了他最后的声明。
df1.join(df2, Seq("id"), "leftanti").union(df2) 是我的答案。用户已经获得了问题中定义的两个数据帧 df1 和 df2。我不必重新定义它们。 @Shaido 的最后一条语句（表格）是他的答案的输出。我的表格是我的答案的输出，如果您进一步看，表格并不完全相同。两个都对

【解决方案2】：

使用外部join，后跟coalesce。在 Scala 中：

val df1 = Seq((10, "abc"), (20, "tuv"), (30, "xyz")).toDF("id", "name") 
val df2 = Seq((10, "abc"), (20, "pqr"), (40, "lmn")).toDF("id", "name")

df1.select($"id", $"name".as("old_name"))
  .join(df2, Seq("id"), "outer")
  .withColumn("name", coalesce($"name", $"old_name"))
  .drop("old_name")

coalesce 将给出第一个非空值的值，在这种情况下返回：

+---+----+
| id|name|
+---+----+
| 20| pqr|
| 40| lmn|
| 10| abc|
| 30| xyz|
+---+----+

【讨论】：