【发布时间】:2021-06-16 13:00:16
【问题描述】:
您好,我有以下数据框
NAME ID VER
A. 650. true
A. 230. false
B. 430. false
B. 230. false
C. 125. true
C. 230. false
所以这里的目标是删除重复的列并且只保留一个。这里我想删除第二行,因为它的名称与第一行相同,但 VER 等于 false。
对于名称为 C 的最后一列,我们只保留具有真正 Ver 的列,对于 B ,我们保留它们,因为没有 Ver 等于 true。
预期的结果是
NAME ID VER
A. 650. true
B. 430. false
B. 230. false
C. 125. true
所以在这里我考虑了一个按名称分区的窗口函数,然后过滤 VER 以仅保持名称具有真正的 Ver
知道如何使用 spark SQL 实现这一点
【问题讨论】:
-
为什么不直接使用
join?
标签: dataframe apache-spark filter window