yarn的流程图以及流程详解

yarn的流程图以及流程详解
具体的流程(以wordcount为例):
1.在linux系统上运行hadoop程序:hadoop jar wordcount.jar args[0] args[1];首先,在客户端提交运行程序job.submit
2.建立客户端与resourcemanager(RM)连接:connect
3.RM会根据提交的信息判断是否具有权限等,并且提供一个jobID以及资源路径;
4.客户端根据提交的资源路径,提交自己的资源(包含:wordcount.jar,文件的切片信息以及job的配置文件)和申请一个applicationMaster(MrAM);
5.RM会根据任务调度平台(scheduler)以及各个dataManager(DM)的资源情况分配一个DM1给它.
6.客户端接收到信息后,与DM1建立连接,并连同DM1建立容器container,运行AM.
7.AM一方面向RM注册自己,另一方面申请MapTask的相关资源(刚刚客户端提交的资源中有文件的切片信息).
8.RM中的任务调度平台分配资源结合数据块的信息以及各个DM的资源状态,分配对应的片数给AM
9.AM接收到信息,结合各个机器,启动container容器,运行maptask,并且AM对其监督执行运行情况
10.所有的MapTask运行结束,AM会通知RM回收资源.
11.假如还有Reduce阶段的话,则AM会向RM申请资源结合并行度以及对应的数量
12.AM通知对应的DM启动container容器,运行reducetask
13.运行结束,AM会通知RM回收资源
14.AM会通知RM回收自身的资源,并且自身销毁自己.