【发布时间】:2020-11-25 17:27:10
【问题描述】:
我有以下 Java Spark 数据集/数据框。
Col_1 Col_2 Col_3 ...
A 1 1
A 1 NULL
B 2 2
B 2 3
C 1 NULL
此数据集中有近 25 列,我必须删除在 Col_1 上重复的那些记录。如果第二条记录为 NULL,则必须删除 NULL(如 COl_1 = A 的情况),如果有多个有效值,如 Col_1 = B 的情况,则只有一个有效的 Col_2 = 2 和 Col_3 = 2 应该是每次都保留。如果只有一条记录为 null,例如 Col_1 = C 的情况,则必须保留它
预期输出:
Col_1 Col_2 Col_3 ...
A 1 1
B 2 2
C 1 NULL
到目前为止我尝试了什么:
我尝试使用 group by 并使用 sort_array 和 array_remove 收集集合,但即使只有一行,它也会完全删除空值。
如何在 Java Spark 中实现预期的输出。
【问题讨论】:
标签: java apache-spark