【问题标题】:Apache Flink best practices - when to run separate tasksApache Flink 最佳实践——何时运行单独的任务
【发布时间】:2020-04-27 20:35:49
【问题描述】:

关于 Flink 中的最佳实践和效率,何时将分析拆分为多个任务的建议是什么

例如,给定 Kafka 中的单个主题作为数据源。如果有许多简单的操作要在流上执行,例如:如果某个值大于 x,或者如果 x & y 等。您将停止在同一流中花费更多规则的点是什么?任务并开始并行运行它们?

这方面有什么官方推荐吗?

【问题讨论】:

    标签: apache-flink


    【解决方案1】:

    很难给出一般性的建议。在性能方面,尽可能多地投入一份工作是有意义的。

    但是,考虑维护更为重要。我会将所有内容放在一项密切相关的工作中,这样新功能或错误修复可能只会影响一项工作,同时,您也不希望在升级一个特定查询时停止所有分析。

    另一个需要考虑的维度是状态大小。它与重启和更新频率有关(以上点)。如果状态大小变得太大,重新启动这个怪物作业需要很长时间,如果您只接触一小部分代码,这将是低效的。

    最后,还取决于相关性。如果您工作的某些部分非常重要,因为它反映了推动您业务发展的一个 KPI,那么您可能不想将其与一些脆弱、不重要的部分混为一谈。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-06-28
      • 2011-10-26
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多