【发布时间】:2018-11-10 08:19:24
【问题描述】:
我在 Spark 网页中有以下阶段(与 yarn 一起使用):
Stage 0 重试 1,重试 2 让我感到惊讶。什么会导致这样的事情?
我试图自己重现它并杀死了我的一台集群机器上的所有执行程序进程 (CoarseGrainedExecutorBackend),但我得到的只是一些失败的任务,描述为 Resubmitted (resubmitted due to lost executor)。
全阶段重试的原因是什么?我很好奇的是,在每个阶段尝试读取的记录数量是不同的:
和
注意Attempt 1 中的3011506 和Attempt 0 中的195907736。阶段重试是否会导致 Spark 重新读取某些记录两次?
【问题讨论】:
标签: scala apache-spark