大数据学习笔记16：MapReduce处理流程四

MapReduce处理流程四

1、上面黑色实框圈起来的整体上是 inputformat

2、inputformat 两个功能：切分数据、读取数据

3、一个split 对应一个 map 处理

4、分区、排序都属于 shuffle

5、数据存储交换都在 HDFS上

6、一个map 是一个进程：但是spark 使用的是线程，进程比线程更容易控制资源使用比较稳定。

但是进程启动较慢。

7、RR--记录读取器每读取一条记录调用一次 map 函数，知道split尾部。

8、缓冲区的数据是 { 分区，key，value} 的三元组。

9、不是所有的文件都要经过切分：压缩问价不能切分。

10、一个压缩文件由一个 map 来处理---- 可以通过控制压缩文件个数来控制 map 个数。

11、hdfs Block默认大小是64m - 可以通过参数 dfs.block.size 设置。由此可见 hdfs 适合存储大文件。