【发布时间】:2018-08-23 14:04:30
【问题描述】:
我有这样的rdd
// Structure List[Tuple(x1, x2, value), Tuple(x1, x2, value)]
data = [('23', '98', 34), ('23', '89', 39), ('23', '12', 30), ('24', '12', 34), ('24', '14', 37), ('24', '16', 30)]
我正在寻找最终结果是 x1 的得分最大值以及与之关联的 x2 值。像这样
data = [('23', '89', 39), ('24', '14', 37)]
我尝试了reduceByKey,但它给了我每个组合的最大值,这不是我想要的。
来自comment:
这是我尝试过的:
max_by_group = (
data.map(lambda x: (x[0], x))
.reduceByKey(lambda x1, x2: max(x1, x2, key=lambda x: x[-1]))
.values()
)
【问题讨论】:
-
这就是我所做的 max_by_group = ( data.map(lambda x: (x[0], x)) .reduceByKey(lambda x1, x2: max(x1, x2, key=lambda x : x[-1])) .values() )
标签: python python-3.x apache-spark pyspark