【发布时间】:2019-03-08 13:17:36
【问题描述】:
我想删除在其他列中没有特定值的具有相同 ID 的重复项(在这种情况下,按那些具有相同 ID 且值 = 1 的行进行过滤) 输入df:
+---+-----+------+
| id|value|sorted|
+---+-----+------+
| 3| 0| 2|
| 3| 1| 3|
| 4| 0| 6|
| 4| 1| 5|
| 5| 4| 6|
+---+-----+------+
我想要的结果:
+---+-----+------+
| id|value|sorted|
+---+-----+------+
| 3| 1| 3|
| 4| 1| 5|
| 5| 4| 6|
+---+-----+------+
【问题讨论】:
-
@user6910411 不,因为该用户希望根据其他列的最大值删除重复项,在这种情况下是按特定值
标签: scala apache-spark dataframe filter duplicates