Pyspark：对列值求和答案

【问题标题】：Pyspark: sum column valuesPyspark：对列值求和
【发布时间】：2016-03-05 00:26:19
【问题描述】：

我有这个 RDD（显示两个元素）：

[['a', [1, 2]], ['b', [3, 0]]]

我想根据索引在列表中添加元素，所以有最终结果

[4, 2]

我将如何实现这一目标？我知道第一个元素 ('a'/'b') 的存在是无关紧要的，因为我可以用地图将其去掉，所以问题变成了如何对列值求和。

【问题讨论】：

标签： apache-spark pyspark rdd

【解决方案1】：

$ pyspark
>>> x = [['a', [1, 2]], ['b', [3, 0]]]
>>> rdd = sc.parallelize(x)
>>> rdd.map(lambda x: x[1]).reduce(lambda x,y: [sum(i) for i in zip(x, y)])

【讨论】：

【解决方案2】：

您可以按您所说的那样剥离键，然后按如下方式减少您的 RDD（假设您有 2 列）：

myRDD.reduce(lambda x,y:[x[0]+y[0], x[1]+y[1]])

这将为您提供所有列的总和

【讨论】：