MR 笔记四 - 爱码网

1.MapReduce中的Combiner

MR 笔记四

1. Combiner是MR程序中Mapper和Reducer之外的一种组件

2. Combiner组件的父类就是Reducer

3. Combiner和reducer的区别在于运行的位置

4. Combiner是在每一个maptask所在的节点运行;

5. Combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量。

6. Combiner能够应用的前提是不能影响最终的业务逻辑，此外，Combiner的输出kv应该跟reducer的输入kv类型要对应起来。

举例说明

假设一个计算平均值的MR任务

Map阶段

2个MapTask

MapTask1输出数据：10,5,15 如果使用Combiner:(10+5+15)/3=10

MapTask2输出数据：2,6 如果使用Combiner:(2+6)/2=4

Reduce阶段汇总

（10+4）/2=7

而正确结果应该是（10+5+15+2+6）/5=7.6

7.自定义Combiner实现步骤

自定义一个Combiner继承Reducer，重写Reduce方法

在驱动(Driver)设置使用Combiner（默认是不适用Combiner组件）

直接使用Reducer作为Combiner组件来使用是可以的！！

2.MapReduce中的排序

排序是MapReduce框架中最重要的操作之一。

MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。默认排序是按照字典顺序排序，且实现该排序的方法是 快速排序

MapTask

它会将处理的结果暂时放到环形缓冲区中，当环形缓冲区使用率达到一定阈值后，再对缓冲区中的数据进行一次快速排序，并将这些有序数据溢写到磁盘上，

溢写完毕后，它会对磁盘上所有文件进行归并排序。

ReduceTask 当所有数据拷贝完毕后，ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。

1. 部分排序.

MapReduce根据输入记录的键对数据集排序。保证输出的每个文件内部有序。

2. 全排序

最终输出结果只有一个文件，且文件内部有序。实现方式是只设置- -个ReduceTask。但该方法在处理大型文件时效率极低，因为一台机器处理所有文件，完全丧失了MapReduce所提供的并行架构。

3. 辅助排序: ( GroupingComparator分组)

在Reduce端对key进行分组。应用于:在接收的key为bean对象时，想让一个或几个字段相同(全部字段比较不相同)的key进入到同一个reduce方法时，可以采用分组排序。

4. 二次排序.

在自定义排序过程中，如果compareTo中的判断条件为两个即为二次排序。

3.自定义排序对象

1. 自定义对象作为Map的key输出时，需要实现WritableComparable接口，排序：重写compareTo()方法，序列以及反序列化方法

2. 再次理解reduce()方法的参数；reduce()方法是map输出的kv中key相同的kv中的v组成一个集合调用一次reduce()方法，选择遍历values得到所有的key。

3. 默认reduceTask数量是1个；

4. 对于全局排序需要保证只有一个reduceTask!!

4.GroupingComparator

GroupingComparator是mapreduce当中reduce端的一个功能组件，主要的作用是决定哪些数据作为一组，调用一次reduce的逻辑，默认是每个不同的key，作为多个不同的组，每个组调用一次reduce逻辑，我们可以自定义GroupingComparator实现不同的key作为同一个组，调用一次reduce逻辑。