什么会导致阶段在 Spark 中重新尝试答案

【问题标题】：What can cause a stage to reattempt in Spark什么会导致阶段在 Spark 中重新尝试
【发布时间】：2018-11-10 08:19:24
【问题描述】：

我在 Spark 网页中有以下阶段（与 yarn 一起使用）：

Stage 0 重试 1，重试 2 让我感到惊讶。什么会导致这样的事情？

我试图自己重现它并杀死了我的一台集群机器上的所有执行程序进程 (CoarseGrainedExecutorBackend)，但我得到的只是一些失败的任务，描述为 Resubmitted (resubmitted due to lost executor)。

全阶段重试的原因是什么？我很好奇的是，在每个阶段尝试读取的记录数量是不同的：

和

注意Attempt 1 中的3011506 和Attempt 0 中的195907736。阶段重试是否会导致 Spark 重新读取某些记录两次？

【问题讨论】：

【解决方案1】：

Stage 失败可能是由于 Spark 中的 FetchFailure

获取失败： Reduce 任务无法执行 shuffle Read，即无法在磁盘写入的 shuffle map 任务中找到 shuffle 文件。

如果 stageFailureCount

【讨论】：