【发布时间】:2020-04-19 20:13:00
【问题描述】:
我有一个大约 200k qps 的 Flink 作业处理数据。没有检查点,作业运行良好。 但是当我尝试添加检查点(间隔 50 分钟)时,它会在第一个任务中导致背压,即为每个条目添加一个关键字段,数据滞后也不断上升。 我的两个 Kafka 主题的滞后,上半年启用了检查点,滞后很快上升。第二部分(非常低的滞后禁用了检查点,滞后在毫秒内)
我至少在使用once checkpoint mode,它应该是异步进程。有人可以建议吗?
我的检查点设置
env.enableCheckpointing(1800000,
CheckpointingMode.AT_LEAST_ONCE);
env.getCheckpointConfig().setMaxConcurrentCheckpoints(1);
env.getCheckpointConfig()
.enableExternalizedCheckpoints(
CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
env.getCheckpointConfig()
.setCheckpointTimeout(10min);
env.getCheckpointConfig()
.setFailOnCheckpointingErrors(
jobConfiguration.getCheckpointConfig().getFailOnCheckpointingErrors());
我的工作有 128 个容器。
我正在尝试使用 30 分钟检查站并查看
【问题讨论】:
标签: apache-flink flink-streaming