Apache Flink 最佳实践——何时运行单独的任务答案

【问题标题】：Apache Flink best practices - when to run separate tasksApache Flink 最佳实践——何时运行单独的任务
【发布时间】：2020-04-27 20:35:49
【问题描述】：

关于 Flink 中的最佳实践和效率，何时将分析拆分为多个任务的建议是什么

例如，给定 Kafka 中的单个主题作为数据源。如果有许多简单的操作要在流上执行，例如：如果某个值大于 x，或者如果 x & y 等。您将停止在同一流中花费更多规则的点是什么？任务并开始并行运行它们？

这方面有什么官方推荐吗？

【问题讨论】：

【解决方案1】：

很难给出一般性的建议。在性能方面，尽可能多地投入一份工作是有意义的。

但是，考虑维护更为重要。我会将所有内容放在一项密切相关的工作中，这样新功能或错误修复可能只会影响一项工作，同时，您也不希望在升级一个特定查询时停止所有分析。

另一个需要考虑的维度是状态大小。它与重启和更新频率有关（以上点）。如果状态大小变得太大，重新启动这个怪物作业需要很长时间，如果您只接触一小部分代码，这将是低效的。

最后，还取决于相关性。如果您工作的某些部分非常重要，因为它反映了推动您业务发展的一个 KPI，那么您可能不想将其与一些脆弱、不重要的部分混为一谈。

【讨论】：