【发布时间】:2020-06-30 16:58:38
【问题描述】:
请帮帮我, 我有一个集群 Apache Flink(2 个作业管理器,3 个任务管理器),但我不知道在 flink-conf.yml 中为该参数设置哪些值:
jobmanager.heap.size
taskmanager.heap.size
taskmanager.numberOfTaskSlots
parallelism.default
Job Manager 机器具有:8CPU、32GB RAM
任务管理器机器有:8CPU,32GB RAM
我计划在这个集群上运行 15..20 Apache Flink Jobs。由于私人政策我不能在这里写java代码,所以我会尽量用文字说出来。
- 1)我从 Apache Kafka 代理 №1 读取数据(它是 JSON 消息)
- 2)POJO中字节的反序列化数组
- 3) 使用 FilterFunction 检查 POJO 事件中的某些字段
- 4)通过 id-field 使用 KeyBy 运算符
- 5) 将 KeyedProcessFunction 与 state(valueState 或 mapState)一起使用和 计时器(我使用的是 HDFS RocksDB 状态后端)
- 6) 将 POJO 序列化为字节数组并发送到 Apache Kafka 经纪人№2
预计每天将有超过 5000 万个事件发生。所有作业都有一个数据源。
【问题讨论】:
标签: java apache-flink flink-streaming