【发布时间】:2017-01-23 01:04:42
【问题描述】:
我是 Spark 环境和开发的新手。
我有两个 RDD,通过连接器合并,连接器的结果如下:
(u'10611', ((u'Laura', u'Mcgee'), (u'66821', u'COMPLETE')))
(u'4026', ((u'Mary', u'Smith'), (u'3237', u'COMPLETE')))
(u'4026', ((u'Mary', u'Smith'), (u'4847', u'CLOSED')))
如果您看到我有两个元组和一个键,我想合并两个元组并将其保留为键和一个元组,如下所示:
(u'10611', (u'Laura', u'Mcgee', u'66821', u'COMPLETE'))
(u'4026', (u'Mary', u'Smith', u'3237', u'COMPLETE'))
(u'4026', (u'Mary', u'Smith', u'4847', u'CLOSED'))
另外,我如何在 saveAsTextFile 之前格式化它,由 Tab 分隔。示例
10611 Laura Mcgee 66821 COMPLETE
4026 Mary Smith 3237 COMPLETE
4026 Mary Smith 4847 CLOSED
我有这样的东西,但不知道如何使用元组访问它:
.map(lambda x: "%s\t%s\t%s\t%s" %(x[0], x[1], x[2], x[3]))
【问题讨论】:
标签: python apache-spark pyspark cloudera bigdata