【问题标题】:Flink's failure recovery processFlink 的故障恢复流程
【发布时间】:2019-04-04 02:44:18
【问题描述】:

想知道flink详细的故障恢复流程。单机模式下,我猜有几个步骤,比如一个TaskManager故障,先检测故障,所有任务停止处理,然后重新部署任务。然后从 HDFS 下载检查点,每个算子加载状态。加载完成后,源继续发送数据。我对吗?有谁知道正确详细的恢复流程吗?

【问题讨论】:

    标签: apache-flink


    【解决方案1】:

    Flink 通过检查点从故障中恢复。检查点可以存储在本地、S3 或 HDFS 中。恢复后,将恢复不同运营商的所有状态。

    对于详细的恢复过程,这实际上取决于您的后端。如果您使用的是 RocksDB。

    • 您的检查点可以是增量的
    • 如果您不需要更改后端,您可以使用检查点数据作为保存点。这意味着您可以在从检查点恢复时更改并行度。

    【讨论】:

    • 如果我使用 FsStateBackend,它是从 HDFS 恢复的。这里有一些问题。运营商恢复秩序了吗?恢复的时候,flink 是不是重新部署了整个执行图?我通过UI发现有一些运营商改变了运行节点。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-12-01
    相关资源
    最近更新 更多