【发布时间】:2016-04-16 09:13:21
【问题描述】:
我有一个针对一个键的多个值(列表)的 rdd,我想从键中的每个值中过滤掉垃圾。
rdd 有这个数据
((key1, [('',val1),('', val2),..]),(key2,[...)
我想把它映射成这样的东西
((key1,[val1, val2,...]), key2[...)
我知道这里需要一个 map 函数,但我没有针对一个键使用 map 来处理多个值。
这是我的努力。
def mapper(x):
values = []
for a in x[1]:
values.append(a[1])
return(x[0], ap)
listRdd.map( mapper).collect()
但我遇到了一些错误
【问题讨论】:
标签: python apache-spark pyspark