【发布时间】:2020-04-25 07:17:11
【问题描述】:
我是 Spark 的新手。考虑以下代码:
val rdd = sc
.objectFile[(Int, Int)]("path")
.partitionBy(new HashPartitioner(sc.defaultParallelism))
.persist()
rdd.count()
从文件中读取的每个元组是否直接发送到哈希分区器指定的分区?还是先将整个文件读入内存而不考虑partitioner,然后根据partitioner进行分配。对我来说,前者可能更有效,因为数据被洗牌一次,而后者需要两次洗牌。
【问题讨论】:
-
RDD 是现实中的遗留物。
标签: apache-spark shuffle