【发布时间】:2021-12-02 22:49:27
【问题描述】:
我有两列的 spark DataFrame
colA colB
1 3
1 2
2 4
2 5
2 1
我想 groupBy colA 并为每个组迭代 colB 列表,这样:
res = 0
for i in collect_list(col("colB")):
res += i * (3+res)
返回值为res
所以我明白了:
colA colB
1 24
2 78
如何在 scala 中做到这一点?
【问题讨论】:
-
使用
reduceByKey -
感谢您为我指明方向。很乐意为我提供一个最低限度的工作示例,例如列表(8,4)?谢谢
标签: list scala apache-spark reduce