【发布时间】:2018-06-15 04:56:52
【问题描述】:
我有以下 DataFrame df:
如何删除重复项,同时保持level 每对重复的item_id 和country_id 的最小值。
+-----------+----------+---------------+
|item_id |country_id|level |
+-----------+----------+---------------+
| 312330| 13535670| 82|
| 312330| 13535670| 369|
| 312330| 13535670| 376|
| 319840| 69731210| 127|
| 319840| 69730600| 526|
| 311480| 69628930| 150|
| 311480| 69628930| 138|
| 311480| 69628930| 405|
+-----------+----------+---------------+
预期输出:
+-----------+----------+---------------+
|item_id |country_id|level |
+-----------+----------+---------------+
| 312330| 13535670| 82|
| 319840| 69731210| 127|
| 319840| 69730600| 526|
| 311480| 69628930| 138|
+-----------+----------+---------------+
我知道如何使用dropDuplicates 无条件删除重复项,但我不知道如何针对我的特殊情况执行此操作。
【问题讨论】:
标签: scala apache-spark apache-spark-sql