【发布时间】:2018-11-28 22:50:54
【问题描述】:
在pyspark中,如何将每个键都有一个值列表的输入RDD转换为每个值都有一个它所属的键列表的输出RDD?
输入
[(1, ['a','b','c','e']), (2, ['b','d']), (3, ['a','d']), (4, ['b','c'])]
输出
[('a', [1, 3]), ('b', [1, 2, 4]), ('c', [1, 4]), ('d', [2,3]), ('e', [1])]
【问题讨论】:
标签: pyspark apache-spark-sql rdd