【发布时间】:2026-01-10 21:15:02
【问题描述】:
我目前正在运行一个 Flink 会话集群(Kubernetes、1 个 JobManager、1 个 TaskManager、Zookeeper、S3),其中运行多个作业。
随着我们努力增加更多工作,我们正在寻求改进我们的部署和集群管理策略。我们正在考虑迁移到使用作业集群,但是对将产生的容器数量有所保留。每个作业一个容器不是问题,但是每个作业两个容器(1 个 JM 和 1 个 TM)引起了对内存消耗的担忧。一些作业需要高可用性以及使用检查点和从保存点恢复/获取保存点的能力,因为它们在一个窗口上聚合事件。
从我阅读文档和在 Google 上花费的时间来看,我没有发现任何似乎可以说明所考虑的事情是否真的可行的东西。
有没有可能做以下三件事:
- 在同一个容器中将 JobManager 和 TaskManager 作为单独的进程运行,并将其用作 Flink 集群,或者
- 将 JobManager 和 TaskManager 作为同一个进程运行,或者
- 将作业作为独立 JAR 运行,能够从/获取检查点恢复,并能够获取保存点并从该保存点恢复?
(如果有人有更好的想法,我会全力以赴。)
【问题讨论】:
标签: kubernetes apache-flink high-availability