【问题标题】:How to get specific values from RDD in SPARK with PySpark如何使用 PySpark 从 SPARK 中的 RDD 获取特定值
【发布时间】:2016-09-09 16:12:20
【问题描述】:

以下是我的RDD,有5个字段

[('sachin', 200, 10,4,True), ('Raju', 400, 40,4,True), ('Mike', 100, 50,4,False) ]

这里我只需要获取第 1、3 和 5 个字段,如何在 PySpark 中执行。预期结果如下。我尝试了reduceByKey几种方法,都无法实现

Sachin,10,True
Raju,40,True
Mike,50,False

【问题讨论】:

    标签: python apache-spark pyspark


    【解决方案1】:

    用一张简单的地图?

    rdd.map(lambda x: (x[0], x[2], x[4]))
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-03-13
      • 1970-01-01
      • 2016-05-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-07-06
      相关资源
      最近更新 更多