【发布时间】:2020-04-17 22:40:41
【问题描述】:
根据 Spark
“Shuffle Write”其实是指所有executor上所有写入的序列化数据在传输前的总和(一般是在一个stage的末尾)
我的问题是随机写入发生在哪里?是否将整个数据单独写入本地磁盘上?或者它是否将整个数据写入 RAM 内存中单独洗牌?或者根据 RAM 的可用性,它是否将一部分数据写入磁盘,一部分写入 RAM?
请解释
【问题讨论】:
-
内存和磁盘。我们开始吧:de.slideshare.net/colorant/spark-shuffle-introduction - 或者,如果您渴望,请在原始 Spark 论文第 5 章中:people.csail.mit.edu/matei/papers/2012/nsdi_spark.pdf
-
查看我的 Bounted Answer 并添加支持。我可以在这里重做,但这不是 SO 的精神。 stackoverflow.com/questions/58699907/…
-
根据您的回答,我得出的结论是地图输出仅写入本地磁盘,即使需要洗牌的数据很小
-
确实是范式。
标签: apache-spark