【发布时间】:2017-08-16 22:28:34
【问题描述】:
我正在阅读过去几周的 hadoop 框架,但我无法理解一个概念。可能这个问题是愚蠢的,如果它对此感到抱歉的话。 我的问题是假设我必须在一个太长的文件上创建一个字数统计程序,因此它分布在 3 个不同的数据节点上。现在,由于在所有三个数据节点上运行的映射阶段将创建为键值对,然后合并将对所有三个数据节点创建的所有映射数据执行。但现在我无法理解下一阶段是什么。表示合并数据将如何沿着不同的缩减阶段分布,以及将运行多少个缩减阶段以及将运行多少个数据节点。请清除我以上所有的困惑,因为我无法在 hadoop 中进一步移动。 如果是这样,对不起一个愚蠢的问题。 谢谢
【问题讨论】:
-
每个节点在自己的数据上运行
reduce(第一阶段),然后一些节点在第一阶段的结果上运行reduce。 -
您能否详细说明您的答案。我无法理解什么是第一阶段,什么是第二阶段
-
第一阶段是减少每个数据节点自己拥有的数据。然后第二阶段是从第一阶段收集归约数据,并将其合并在一起(有时可以通过对结果运行相同的归约操作来表示)。
标签: java hadoop mapreduce hdfs