【发布时间】:2021-08-19 10:33:38
【问题描述】:
我在 Spark (3.0/3.1) 中有一些代码是这样写的:
foo.join(bar, Seq("col1","col2","col3"),"inner").dropDuplicates("col1","col2")
其中foo 和bar 是两个通用数据帧。
它如何转换为 Spark SQL?我找不到与dropDuplicates 等效的定义:
select distinct(col1, col2), * ....
似乎有些不同。有什么想法吗?
【问题讨论】:
标签: apache-spark apache-spark-sql