MR处理数据内部流程图文字说明

MR处理数据内部流程图文字说明 1. 客户端有一个文件,读取文件(textInputFormat),生成新的的k v,开始一行一行的读取数据,

任务被读取之后,开始计算任务切片(就是Maptask个数,maptask的个数是根据文件的个数和文件的大小来决定的),
然后kv(k代表行偏移量,v代表行内容)交给maptask(),之后kv不断地往maptask输入,kv交给map()方法,一个kv执行一次map方法,然后可以子啊map方法中可以对文件进行切割了,
Map切割完成后,context.write写出去,写到缓存区(MapOutputBuffer)中,在缓存区中进行分区标识,
然后把数组传到环形缓冲区,然后在环形缓冲区内进行排序,
然后通过spill输出溢出组件,把排好顺序的数组同过spill溢出环形缓冲区,然后写入磁盘,将写入磁盘的数据进行合并排序,再输出流写道(SepueFileOutputFormat)到磁盘中,然后提供了一个http下载服务,
当启动reducetaskde 时候开始拉去自己的数据,在拉去数据的过程中先经过shuffle,
拉去完成之后通过Merger进行归并排序,然后经过开始通过GroupingCompator判断两个相邻的key是否相同,如果相同存储在同一个迭代器中,调用一次reduce方法处理,reduce方法遍历迭代器聚合操作
然后通过outputformat写道本地磁盘中