【发布时间】:2018-10-14 03:39:03
【问题描述】:
我的数据如下所示:
id | duration | action1 | action2 | ...
---------------------------------------------
1 | 10 | A | D
1 | 10 | B | E
2 | 25 | A | E
1 | 7 | A | G
我想按 ID 对其进行分组(效果很好!):
df.rdd.groupBy(lambda x: x['id']).mapValues(list).collect()
现在我想按持续时间对每个组中的值进行分组,以获得如下结果:
[(id=1,
((duration=10,[(action1=A,action2=D),(action1=B,action2=E),
(duration=7,(action1=A,action2=G)),
(id=2,
((duration=25,(action1=A,action2=E)))]
这里是我不知道如何进行嵌套分组的地方。有什么建议吗?
【问题讨论】: