MapReduce处理流程四

 

 


大数据学习笔记16:MapReduce处理流程四

 

 

 

   1、上面 黑色实框 圈起来的 整体上 是   inputformat

 

   2、inputformat 两个功能: 切分数据、读取数据 

 

   3、一个split 对应一个 map 处理

 

   4、分区、排序 都属于  shuffle 

 

   5、数据存储交换都在 HDFS上

 

   6、一个map 是一个进程 : 但是spark 使用的是 线程,进程比线程更容易控制资源使用  比较稳定。

         但是 进程启动较慢。

 

   7、RR--记录读取器   每读取一条记录  调用一次  map 函数,知道split尾部。

 

   8、缓冲区的数据 是    { 分区 ,key,value} 的三元组 。

 

   9、不是所有的文件都要经过切分 : 压缩问价不能切分 。

 

   10、一个压缩文件由 一个 map 来处理---- 可以通过控制压缩文件个数  来控制 map 个数。

 

   11、hdfs   Block默认大小是64m  - 可以通过参数 dfs.block.size  设置  。 由此可见  hdfs 适合存储大文件。

 

 

相关文章:

  • 2021-08-18
  • 2021-04-24
  • 2022-12-23
  • 2021-12-26
  • 2021-09-16
  • 2021-11-03
  • 2021-10-02
猜你喜欢
  • 2021-08-05
  • 2021-07-15
  • 2021-07-30
  • 2021-06-04
  • 2021-11-08
  • 2021-11-20
  • 2021-12-24
相关资源
相似解决方案