【发布时间】:2017-08-15 21:05:38
【问题描述】:
我确信这很简单,但我一直遇到问题。我有一个带有键值对的 RDD。我想要一个仅包含键的不同列表。我将分享代码和示例。提前谢谢!
RDD 示例
>>> rdd4.take(3)
[[(u'11394071', 1), (u'11052103', 1), (u'11052101', 1)], [(u'11847272', 10), (u'999999', 1), (u'11847272', 10)], [(u'af1lowprm1704', 5), (u'am1prm17', 2), (u'af1highprm1704', 2)]]
试过/没用
rdd4.distinct().keys()
rdd4.map(lambda x: tuple(sorted(x))).keys().distinct()
[(u'10972402', 1), (u'10716707', 1), (u'11165362', 1)]
首选结构
[u'11394071', u'11052101', '999999', u'11847272', u'am1prm17', u'af1highprm1704']
【问题讨论】:
-
11052103和u'af1lowprm1704键呢?
标签: python apache-spark pyspark rdd