【发布时间】:2015-09-07 05:27:10
【问题描述】:
我正在尝试在 Spark 中按两列分组,并使用 reduceByKey,如下所示:
pairsWithOnes = (rdd.map(lambda input: (input.column1,input.column2, 1)))
print pairsWithOnes.take(20)
上面的 maps 命令可以正常工作并生成三列,第三列全为一。我尝试将前两列的第三个相加如下:
reduced = pairsWithOnes.reduceByKey(lambda a,b,c : a+b+c)
print reduced.take(20)
但是,运行最后一个打印命令会引发错误“太多值无法解压”。有人可以指导我以正确的方式将其减少两列吗?
【问题讨论】:
-
您能否提供示例输入和预期输出?
标签: python apache-spark reduce pyspark