1.MapReduce基础概念

答:MapReduce作业时一种大规模数据的并行计算的便程模型。我们可以将HDFS中存储的海量数据,通过MapReduce作业进行计算,得到目标数据。

2.MapReduce的四个阶段

答:Split阶段、Map阶段(需要编码)、Shuffle阶段、Reduce阶段(需要编码),下面以WordCount为例。

Hadoop 之 深入探索MapReduce

3.从分片到Map

答:我们知道输入的文件时存在DataNode的block之中,Hadoop1.0默认的block大小为64M,Hadoop2.0大小为128M,可以在hdfs-site.xml中设置参数:dfs.block.size。

Hadoop 之 深入探索MapReduceHadoop 之 深入探索MapReduce

Hadoop 之 深入探索MapReduce Hadoop 之 深入探索MapReduce

4.控制Map任务的个数在一个合理的范围之内

Hadoop 之 深入探索MapReduce 

5.Map——Shuffle——Reduce

Hadoop 之 深入探索MapReduceHadoop 之 深入探索MapReduce

Hadoop 之 深入探索MapReduce Hadoop 之 深入探索MapReduce

Hadoop 之 深入探索MapReduce 

相关文章:

  • 2021-12-26
  • 2022-12-23
  • 2021-10-22
  • 2021-06-18
  • 2021-07-21
  • 2021-05-16
  • 2022-01-08
  • 2021-09-18
猜你喜欢
  • 2021-04-24
  • 2021-12-13
  • 2021-08-25
  • 2021-11-02
  • 2021-06-22
  • 2022-12-23
  • 2022-12-23
相关资源
相似解决方案