【问题标题】:How to merge two dataframes spark java/scala based on a column?如何基于列合并两个数据框 spark java/scala?
【发布时间】:2018-10-19 07:57:08
【问题描述】:

我有两个数据框 DF1 和 DF2,其中 id 作为唯一列, DF2 可能包含 DF1 现有记录的新记录和更新值,当我们合并两个数据框时,结果应该包括新记录,并且具有更新值的旧记录保持原样。

输入示例:

id   name
10   abc
20   tuv
30   xyz

id   name
10   abc
20   pqr
40   lmn

当我合并这两个数据框时,我希望结果为:

id   name
10   abc
20   pqr
30   xyz
40   lmn

【问题讨论】:

    标签: java scala apache-spark dataframe apache-spark-sql


    【解决方案1】:
    df1.join(df2, Seq("id"), "leftanti").union(df2).show
    
    | id|name|
    +---+----+
    | 30| xyz|
    | 10| abc|
    | 20| pqr|
    | 40| lmn|
    +---+----+
    

    【讨论】:

    • 这不是答案,而是对@Shaido 答案的评论。你只更新了他最后的声明。
    • df1.join(df2, Seq("id"), "leftanti").union(df2) 是我的答案。用户已经获得了问题中定义的两个数据帧 df1 和 df2。我不必重新定义它们。 @Shaido 的最后一条语句(表格)是他的答案的输出。我的表格是我的答案的输出,如果您进一步看,表格并不完全相同。两个都对
    【解决方案2】:

    使用外部join,后跟coalesce。在 Scala 中:

    val df1 = Seq((10, "abc"), (20, "tuv"), (30, "xyz")).toDF("id", "name") 
    val df2 = Seq((10, "abc"), (20, "pqr"), (40, "lmn")).toDF("id", "name")
    
    df1.select($"id", $"name".as("old_name"))
      .join(df2, Seq("id"), "outer")
      .withColumn("name", coalesce($"name", $"old_name"))
      .drop("old_name")
    

    coalesce 将给出第一个非空值的值,在这种情况下返回:

    +---+----+
    | id|name|
    +---+----+
    | 20| pqr|
    | 40| lmn|
    | 10| abc|
    | 30| xyz|
    +---+----+
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-01-30
      • 1970-01-01
      • 2019-05-01
      • 1970-01-01
      • 1970-01-01
      • 2017-12-27
      • 1970-01-01
      • 2019-12-16
      相关资源
      最近更新 更多