如何使用 PySpark 从 SPARK 中的 RDD 获取特定值答案

【问题标题】：How to get specific values from RDD in SPARK with PySpark如何使用 PySpark 从 SPARK 中的 RDD 获取特定值
【发布时间】：2016-09-09 16:12:20
【问题描述】：

以下是我的RDD，有5个字段

[('sachin', 200, 10,4,True), ('Raju', 400, 40,4,True), ('Mike', 100, 50,4,False) ]

这里我只需要获取第 1、3 和 5 个字段，如何在 PySpark 中执行。预期结果如下。我尝试了reduceByKey几种方法，都无法实现

Sachin,10,True
Raju,40,True
Mike,50,False

【问题讨论】：

【解决方案1】：

用一张简单的地图？

rdd.map(lambda x: (x[0], x[2], x[4]))

【讨论】：