【发布时间】:2016-02-04 07:35:33
【问题描述】:
我很困惑,因为我找到了两个答案。
1) 根据 Hadoop Definitive Guide - 第 3 版,第 6 章 - Map Side 说:“在写入磁盘之前,线程首先将数据划分为与它们最终将被发送到的 reducer 对应的分区。在每个分区,后台线程都会在内存中按key进行排序,如果有combiner函数,就在排序的输出上运行。
2) 雅虎开发者教程 (Yahoo tutorial) 说组合器在分区器之前运行。
任何人都可以澄清哪个先运行。
【问题讨论】: