【发布时间】:2016-04-11 04:42:11
【问题描述】:
在下面的字数统计示例中:
(Hello,1)
(Hello,1)
(Hello,1)
(Hello,1)
(Hello,1)
Hadoop的reducer函数会收集所有5个key为“Hello”的元素,然后在reducer函数中进行聚合。
然而,在 Spark 中,它实际上是每次减少 2 个元素。例如,它将第一个和第二个 (Hello,1) 组合成 (Hello,2),将第三个和第四个 (Hello,1) 组合成 (Hello,2) ... 等等(当然,实际情况可能在不同的顺序)。
那么,是否有特定的术语来描述 Spark 中使用的这种计算方法?谢谢!
【问题讨论】:
标签: java hadoop apache-spark mapreduce