如何为实时数据流配置 Apache Flink Cluster (flink-conf.yml)答案

【问题标题】：How to configure Apache Flink Cluster (flink-conf.yml) for real time data stream如何为实时数据流配置 Apache Flink Cluster (flink-conf.yml)
【发布时间】：2020-06-30 16:58:38
【问题描述】：

请帮帮我，我有一个集群 Apache Flink（2 个作业管理器，3 个任务管理器），但我不知道在 flink-conf.yml 中为该参数设置哪些值：

jobmanager.heap.size

taskmanager.heap.size

taskmanager.numberOfTaskSlots

parallelism.default

Job Manager 机器具有：8CPU、32GB RAM
任务管理器机器有：8CPU，32GB RAM

我计划在这个集群上运行 15..20 Apache Flink Jobs。由于私人政策我不能在这里写java代码，所以我会尽量用文字说出来。

1)我从 Apache Kafka 代理 №1 读取数据（它是 JSON 消息）
2)POJO中字节的反序列化数组
3) 使用 FilterFunction 检查 POJO 事件中的某些字段
4)通过 id-field 使用 KeyBy 运算符
5) 将 KeyedProcessFunction 与 state（valueState 或 mapState）一起使用和计时器（我使用的是 HDFS RocksDB 状态后端）
6) 将 POJO 序列化为字节数组并发送到 Apache Kafka 经纪人№2

预计每天将有超过 5000 万个事件发生。所有作业都有一个数据源。

【问题讨论】：

标签： java apache-flink flink-streaming

【解决方案1】：

我会考虑使用资源管理器来点赞YARN、Mesos 或Kubernetes，以便拥有high availability。简而言之，这是what they do for you：

在部署 Flink 应用时，Flink 会自动识别基于应用程序配置的并行度所需的资源并向资源管理器请求它们。万一发生故障， Flink 通过请求新资源来替换失败的容器。全部提交或控制应用程序的通信通过 REST 发生来电。这简化了 Flink 在许多环境中的集成。

换句话说，他们可以将集群中的资源按需提供给链接引擎。并且您在配置您正在寻找的参数时会更加轻松。

【讨论】：