【发布时间】:2018-07-16 16:22:23
【问题描述】:
Spark 具有 map-side combine 的概念,因此您可以执行部分聚合,从而减少(双关语意外)洗牌。
在 Flink 中有没有等价的东西?
【问题讨论】:
标签: apache-flink
Spark 具有 map-side combine 的概念,因此您可以执行部分聚合,从而减少(双关语意外)洗牌。
在 Flink 中有没有等价的东西?
【问题讨论】:
标签: apache-flink
是的。 Flink 提供了多个接口来定义(map-side)组合器。
GroupCombineFunction<IN, OUT> 将一组输入类型 IN 的子集组合成一个或多个 OUT 类型的组合值
CombineFunction<IN, OUT> 将一组输入类型IN 的子集组合成一个OUT 类型的值
ReduceFunction<T> 将 T 类型对组合成 T 类型的单个值。该函数自动用于合并(预聚合)和归约(完全聚合)。【讨论】: