【发布时间】:2016-06-03 12:33:15
【问题描述】:
将大文件加载到RDD0 后,我创建(非常耗时)RDD1 对
((k1,k2), value)
并申请reduceByKey。对于RRD0,我需要创建一对RDD2
((k1,k3), value)
它的创建同样耗时,并应用另一个reduceByKey。
我可以创建一对RDD12
((k1,k2,k3), value)
并首先在(k1,k2) 上应用reduceByKey,然后在(k1,k3) 上应用,这样我就可以节省时间而不是创建RDD1 和RDD2?
【问题讨论】:
标签: python scala apache-spark mapreduce