Flink 的故障恢复流程

【问题标题】：Flink's failure recovery processFlink 的故障恢复流程
【发布时间】：2019-04-04 02:44:18
【问题描述】：

想知道flink详细的故障恢复流程。单机模式下，我猜有几个步骤，比如一个TaskManager故障，先检测故障，所有任务停止处理，然后重新部署任务。然后从 HDFS 下载检查点，每个算子加载状态。加载完成后，源继续发送数据。我对吗？有谁知道正确详细的恢复流程吗？

【问题讨论】：

【解决方案1】：

Flink 通过检查点从故障中恢复。检查点可以存储在本地、S3 或 HDFS 中。恢复后，将恢复不同运营商的所有状态。

对于详细的恢复过程，这实际上取决于您的后端。如果您使用的是 RocksDB。

【讨论】：

如果我使用 FsStateBackend，它是从 HDFS 恢复的。这里有一些问题。运营商恢复秩序了吗？恢复的时候，flink 是不是重新部署了整个执行图？我通过UI发现有一些运营商改变了运行节点。