【发布时间】:2017-10-25 19:58:46
【问题描述】:
pyspark 中的 rdd 由每个列表中的四个元素组成:
[id1, 'aaa',12,87]
[id2, 'acx',1,90]
[id3, 'bbb',77,10]
[id2, 'bbb',77,10]
.....
我想按第一列中的 id 进行分组,并得到其他三列的聚合结果:例如 => [id2,[['acx',1,90], ['bbb',77,10]...]]
我怎样才能意识到它?
【问题讨论】:
-
检查spark.apache.org/docs/2.1.0/api/python/pyspark.html中的groupbykey()
标签: pyspark