【发布时间】:2020-04-27 20:35:49
【问题描述】:
关于 Flink 中的最佳实践和效率,何时将分析拆分为多个任务的建议是什么
例如,给定 Kafka 中的单个主题作为数据源。如果有许多简单的操作要在流上执行,例如:如果某个值大于 x,或者如果 x & y 等。您将停止在同一流中花费更多规则的点是什么?任务并开始并行运行它们?
这方面有什么官方推荐吗?
【问题讨论】:
标签: apache-flink
关于 Flink 中的最佳实践和效率,何时将分析拆分为多个任务的建议是什么
例如,给定 Kafka 中的单个主题作为数据源。如果有许多简单的操作要在流上执行,例如:如果某个值大于 x,或者如果 x & y 等。您将停止在同一流中花费更多规则的点是什么?任务并开始并行运行它们?
这方面有什么官方推荐吗?
【问题讨论】:
标签: apache-flink
很难给出一般性的建议。在性能方面,尽可能多地投入一份工作是有意义的。
但是,考虑维护更为重要。我会将所有内容放在一项密切相关的工作中,这样新功能或错误修复可能只会影响一项工作,同时,您也不希望在升级一个特定查询时停止所有分析。
另一个需要考虑的维度是状态大小。它与重启和更新频率有关(以上点)。如果状态大小变得太大,重新启动这个怪物作业需要很长时间,如果您只接触一小部分代码,这将是低效的。
最后,还取决于相关性。如果您工作的某些部分非常重要,因为它反映了推动您业务发展的一个 KPI,那么您可能不想将其与一些脆弱、不重要的部分混为一谈。
【讨论】: