【发布时间】:2019-02-05 20:31:19
【问题描述】:
我想在 kubernetes 上运行 flink 作业,使用(持久的)状态后端,崩溃的任务管理器似乎没有问题,因为如果我理解正确,他们可以询问作业管理器他们需要从哪个检查点恢复。
一个崩溃的工作经理似乎有点困难。在这个flip-6 page 我读到需要zookeeper 才能知道jobmanager 需要使用哪个检查点来恢复和领导选举。
看到 kubernetes 会在 jobmanager 崩溃时重新启动它,有没有办法让新的 jobmanager 恢复作业而无需设置 zookeeper 集群?
我们目前正在研究的解决方案是:当 kubernetes 想要杀死 jobmanager(例如因为它想将其移动到另一个 vm)然后创建一个保存点时,但这仅适用于正常关闭。
编辑: http://apache-flink-user-mailing-list-archive.2336050.n4.nabble.com/Flink-HA-with-Kubernetes-without-Zookeeper-td15033.html好像很有意思但是没有后续
【问题讨论】:
标签: kubernetes apache-flink high-availability flink-streaming