【发布时间】:2020-07-29 01:26:25
【问题描述】:
我正在阅读 Flink 官方关于任务失败恢复的文档:https://ci.apache.org/projects/flink/flink-docs-stable/dev/task_failure_recovery.html
据我了解,这个文档告诉我们,如果某个任务由于某种原因失败了,Flink 可以借助 Checkpoint 机制来恢复它。
所以现在我还有两个问题:
-
如果 TaskManager 失败了怎么办?据我了解,一个任务分配给一个或多个插槽,插槽位于一个或多个 TaskManager 上。看了上面的文档,我知道 Flink 可以恢复失败的任务,但是如果 TaskManager 失败了,会发生什么? Flink 也能恢复吗?如果故障的TaskManager可以恢复,恢复后分配给它的任务是否可以继续自动运行?
-
如果 JobManager 失败了怎么办?如果 JobManager 失败了,是不是所有的 TaskManager 也会失败?如果是这样,当我在 Zookeeper 的帮助下恢复 JobManager 时,是否所有的 TaskManager 和它们的任务都会自动继续运行?
【问题讨论】:
标签: apache-flink