【问题标题】:Where does shuffle write store in Spark?Spark 中的 shuffle 写入存储在哪里?
【发布时间】:2020-04-17 22:40:41
【问题描述】:

根据 Spark

“Shuffle Write”其实是指所有executor上所有写入的序列化数据在传输前的总和(一般是在一个stage的末尾)

我的问题是随机写入发生在哪里?是否将整个数据单独写入本地磁盘上?或者它是否将整个数据写入 RAM 内存中单独洗牌?或者根据 RAM 的可用性,它是否将一部分数据写入磁盘,一部分写入 RAM?

请解释

【问题讨论】:

标签: apache-spark


【解决方案1】:

所以默认情况下,spark 缓存在内存中,如果数据不足以放入内存,那么它将溢出到磁盘上。 现在,当我们谈论 shuffle-data 时,它将成为 mapper 的中间结果/输出。默认情况下,spark 会将这个中间输出存储在内存中,但是如果没有足够的空间,它会将中间数据存储在磁盘空间中。 Spark 会将这些数据以序列化格式存储,这样就不必每次都产生反序列化的成本。

【讨论】:

    猜你喜欢
    • 2019-07-31
    • 1970-01-01
    • 2019-03-16
    • 2018-05-22
    • 1970-01-01
    • 1970-01-01
    • 2017-09-24
    • 2017-04-18
    • 2015-11-14
    相关资源
    最近更新 更多