【发布时间】:2019-04-26 18:31:32
【问题描述】:
Spark 2.4.0 引入了新的便捷函数exceptAll,它允许减去两个数据帧,保持重复。
例子
val df1 = Seq(
("a", 1L),
("a", 1L),
("a", 1L),
("b", 2L)
).toDF("id", "value")
val df2 = Seq(
("a", 1L),
("b", 2L)
).toDF("id", "value")
df1.exceptAll(df2).collect()
// will return
Seq(("a", 1L),("a", 1L))
但是我只能使用 Spark 2.3.0。
仅使用 Spark 2.3.0 中的函数来实现此功能的最佳方法是什么?
【问题讨论】:
标签: apache-spark apache-spark-sql