【发布时间】:2019-03-28 14:50:53
【问题描述】:
我有一个按“id”和“类型”分组的数据框:
+---+----+-----+
| id|type|count|
+---+----+-----+
| 0| A| 2|
| 0| B| 3|
| 0| C| 1|
| 0| D| 3|
| 0| G| 1|
| 1| A| 0|
| 1| C| 1|
| 1| D| 1|
| 1| G| 2|
+---+----+-----+
我现在想按“id”分组并得到 3 个最大值的总和:
+---+-----+
| id|count|
+---+-----+
| 0| 8|
| 1| 4|
+---+-----+
在pyspark中怎么做,这样计算比较高效?
找到解决方案here
【问题讨论】: