【发布时间】:2017-10-28 01:40:35
【问题描述】:
我的 Spark 工作流程中有两个步骤
第一个函数接受一个 RDD 并吐出数字的平方。
输入:- [1,2,3,4,5]
第一步输出:- [1,4,9,16,25]
rdd = spark.sparkContext.parallelize([1,2,3,4,5],2)
rdd = rdd.map(square_func) # call the image_chunk_func
def square_func(x): 返回 x*x
我的第二步基本上应该取第一步的输出,找到立方根。
如何收集第 1 步的输出并将其传递给第 2 步。
我应该 rdd.collect 并吐到第 2 步吗?
Python 函数做多个地图功能。
>>> rdd = sc.parallelize([1,2,3,4,5])
>>> result = rdd.map(sqr).map(cubex)
>>> rdd.collect()
[1, 2, 3, 4, 5]
【问题讨论】:
标签: apache-spark