【发布时间】:2018-03-26 20:16:41
【问题描述】:
我们如何使用 pyspark 创建一个 RDD,其中键是记录的第一个字段,值是整个记录?
(u'Joe', u'44', 21, u'41', u'1‘, u’1’),
(u‘Mel', u'13', 3, u'30', u'50‘, u’6’)
...
到
(u’Joe’, (u'Joe', u'44', 21, u'41', u'1‘, u’1’)),
(u’Mel’, (u‘Mel', u'13', 3, u'30', u'50‘, u’6’))
...
【问题讨论】:
-
显示你尝试过的东西...
-
我是 spark 新手,但这些是我尝试的以下命令。 rdd2 = rdd1.groupByKey()
-
rdd2 = rdd1.reduceByKey(lambda (x,y): [x[0],x[1],x[2],x[3],x[4],x[5 ]])
-
你的最终目标是什么?为什么需要这样的键值对?
标签: apache-spark pyspark