【问题标题】:How to join two Dataset<Row> in Spark java?如何在 Spark java 中加入两个 Dataset<Row>?
【发布时间】:2020-05-11 10:17:55
【问题描述】:

我在 Java Spark 中有两个数据集,如下所示:

我想获得一个连接的数据集,其中有两个数据集的所有键以及'val1'和'val2'两列,如果缺少一个则为null,像这样

我尝试过使用全外连接:

ds1.join(ds2,col("key1").equalTo(col("key")), "fullouter")

但它仅在 key1 set 等于 key2 set 时才有效。

【问题讨论】:

    标签: java apache-spark dataset


    【解决方案1】:

    连接条件中有一个类型,第二个数据集的列应该是“key2”

    ds1.join(ds2,ds1("key1").equalTo(ds2("key2")), "fullouter")

    结果不会有“key”列,而是 - key1、key2、value1、value2。

    【讨论】:

      猜你喜欢
      • 2017-11-17
      • 2020-10-21
      • 1970-01-01
      • 2018-10-02
      • 1970-01-01
      • 1970-01-01
      • 2019-07-05
      • 1970-01-01
      • 2017-02-04
      相关资源
      最近更新 更多