【发布时间】:2019-04-25 11:45:32
【问题描述】:
我了解工作节点是如何容错的,但是如果您的驱动程序由于某些意外原因而崩溃会发生什么? (断电/内存问题等)。
我想你会失去所有的工作,因为读取结果的代码不再运行,或者 Spark 是否知道如何重新启动它?如果有怎么办?
【问题讨论】:
-
取决于您运行驱动程序的方式。例如,如果您在 yarn-cluster 模式下运行,yarn 将重试您的驱动程序。但是,这意味着重新运行所有作业。
-
谢谢。所以我需要设计它,以便驱动程序在某处保存子计算的进度,并在某些日志中更新计算的“阶段”,并在内部处理容错我猜
-
对。您需要自己恢复驱动程序。
标签: apache-spark