【发布时间】:2019-05-17 14:56:59
【问题描述】:
我是 PySpark 的新手,我想做以下事情,
考虑以下代码,
import numpy as np
b =np.array([[1,2,100],[3,4,200],[5,6, 300],[7,8, 400]])
a = np.array([[1,2],[3,4],[11,6],[7,8], [1, 2], [7,8]])
RDDa = sc.parallelize(a)
RDDb = sc.parallelize(b)
dsmRDD = RDDb.map(lambda x: (list(x[:2]), x[2]))
我想获取与每个 RDDa 值关联的值作为 dsmRDD 的键,即
result = [100, 200, 0, 400, 100, 400]
非常感谢您。
【问题讨论】:
-
您的代码有语法错误。