【问题标题】:How to configure Apache Flink Cluster (flink-conf.yml) for real time data stream如何为实时数据流配置 Apache Flink Cluster (flink-conf.yml)
【发布时间】:2020-06-30 16:58:38
【问题描述】:

请帮帮我, 我有一个集群 Apache Flink(2 个作业管理器,3 个任务管理器),但我不知道在 flink-conf.yml 中为该参数设置哪些值:

jobmanager.heap.size

taskmanager.heap.size

taskmanager.numberOfTaskSlots

parallelism.default

Job Manager 机器具有:8CPU、32GB RAM
任务管理器机器有:8CPU,32GB RAM

我计划在这个集群上运行 15..20 Apache Flink Jobs。由于私人政策我不能在这里写java代码,所以我会尽量用文字说出来。

  • 1)我从 Apache Kafka 代理 №1 读取数据(它是 JSON 消息)
  • 2)POJO中字节的反序列化数组
  • 3) 使用 FilterFunction 检查 POJO 事件中的某些字段
  • 4)通过 id-field 使用 KeyBy 运算符
  • 5) 将 KeyedProcessFunction 与 state(valueState 或 mapState)一起使用和 计时器(我使用的是 HDFS RocksDB 状态后端)
  • 6) 将 POJO 序列化为字节数组并发送到 Apache Kafka 经纪人№2

预计每天将有超过 5000 万个事件发生。所有作业都有一个数据源。

【问题讨论】:

    标签: java apache-flink flink-streaming


    【解决方案1】:

    我会考虑使用资源管理器来点赞YARNMesosKubernetes,以便拥有high availability。简而言之,这是what they do for you

    在部署 Flink 应用时,Flink 会自动识别 基于应用程序配置的并行度所需的资源 并向资源管理器请求它们。万一发生故障, Flink 通过请求新资源来替换失败的容器。全部 提交或控制应用程序的通信通过 REST 发生 来电。这简化了 Flink 在许多环境中的集成。

    换句话说,他们可以将集群中的资源按需提供给链接引擎。并且您在配置您正在寻找的参数时会更加轻松。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2017-01-05
      • 1970-01-01
      • 1970-01-01
      • 2017-02-19
      • 1970-01-01
      • 1970-01-01
      • 2016-10-10
      相关资源
      最近更新 更多