【发布时间】:2015-05-07 19:36:08
【问题描述】:
我有一个 HadoopRDD,我从中创建第一个带有简单 Map 函数的 RDD,然后从第一个 RDD 中创建第二个 RDD,并带有另一个简单的 Map 函数。类似的东西:
HadoopRDD -> RDD1 -> RDD2。
我的问题是 Spak 是否会逐个记录迭代 HadoopRDD 记录以生成 RDD1,然后它会逐个记录迭代 RDD1 记录以生成 RDD2,还是它会遍历 HadoopRDD,然后一次生成 RDD1,然后生成 RDD2。
【问题讨论】:
标签: apache-spark bigdata rdd