【发布时间】:2019-06-09 07:58:32
【问题描述】:
我是 hadoop 新手,我正在努力理解它。我说的是hadoop 2。当我有一个想要做MapReduce的输入文件时,在MapReduce程序中我说的是Split的参数,所以它会做尽可能多的map任务,对吧?
资源管理器知道文件在哪里,并将任务发送到拥有数据的节点,但谁说有多少节点将执行任务?在映射完成后,有一个 shuffle,哪个节点将执行 reduce 任务由执行哈希映射的分区器决定,对吗?有多少节点会做reduce任务?做过map的节点会不会做reduce任务?
谢谢。
TLDR:如果我有一个集群并且我运行 MapReduce 作业,Hadoop 如何决定有多少节点将执行 map 任务,然后哪些节点将执行 reduce 任务?
【问题讨论】:
-
具体问一下,你有什么疑问。这太模糊了。
-
如果我有一个集群并且我运行一个 MapReduce 作业,Hadoop 如何决定有多少节点将执行 map 任务,然后哪些节点将执行 reduce 任务?
-
更新相同的问题。
-
Eric - 根据您的查询也更新问题标题