【发布时间】:2016-08-29 05:23:06
【问题描述】:
返回与 spark RDD 中的每个唯一键关联的最大行(值)的最佳方法是什么?
我正在使用 python,并且我已经尝试过 Math max,通过键和聚合进行映射和归约。有没有一种有效的方法来做到这一点?可能是 UDF?
我有 RDD 格式:
[(v, 3),
(v, 1),
(v, 1),
(w, 7),
(w, 1),
(x, 3),
(y, 1),
(y, 1),
(y, 2),
(y, 3)]
我需要返回:
[(v, 3),
(w, 7),
(x, 3),
(y, 3)]
Ties 可以返回第一个值或随机值。
【问题讨论】:
标签: python apache-spark pyspark rdd