【发布时间】:2017-02-03 22:55:26
【问题描述】:
我有一个关于火花变换函数的简单问题。
coalesce(numPartitions) - 将 RDD 中的分区数减少到 numPartitions。对于过滤大型数据集后更有效地运行操作很有用。
val dataRDD = sc.textFile("/user/cloudera/inputfiles/records.txt")
val filterRDD = dataRDD.filter(record => record.split(0) == "USA")
val resizeRDD = filterRDD.coalesce(50)
val result = resizeRDD.collect
我的问题是
coalesce(numPartitions) 是否真的会从 filterRDD 中移除空分区?
coalesce(numPartitions) 是否进行洗牌?
【问题讨论】:
标签: apache-spark