Hadoop，MapReduce：如何将第二个节点添加到 mapReduce？答案

【问题标题】：Hadoop, MapReduce: how to add second node to mapReduce?Hadoop，MapReduce：如何将第二个节点添加到 mapReduce？
【发布时间】：2013-11-08 14:16:54
【问题描述】：

我有一个包含 2 个节点的 Hadoop 0.2.2 集群。在我启动的第一台机器上：

第二个我也开始所有这些，除了namenode：

我在两台机器上的mapred-site.xml 包含：

<property>
  <name>mapred.job.tracker</name>
  <value>firstMachine:54311</value>
</property>

我在两台机器上的 core-site.xml 包含：

<property>
   <name>fs.default.name</name>
   <value>hdfs://firstMachine:9000</value>
</property>

http://firstMachine:50070 的控制台报告 2 个节点：

 Live Nodes     :   2 (Decommissioned: 0)

但是http://firstMachine:8088 的控制台（带有地图减少工作历史和所有内容的控制台）一直在说：

Active Nodes: 1

此外，无论是否使用第二台机器执行 map reduce，Hadoop 都会产生几乎相同的性能。使用 wordcout 示例进行了尝试，使用了 4 个大文件。

我的问题是：如何检查我的 map reduce 是否实际在多台（在本例中为 2 台）机器上执行，而不仅仅是启动它的那台机器？

如果我的 Hadoop map reduce 实际上没有看到其他 Hadoop 实例，我如何让它看到它（如何配置它以在 2 台机器上运行 map reduce）？

【问题讨论】：

【解决方案1】：

好的，我找到了答案。显然，在 2.2 版中，大多数（全部？）与 mapred 相关的东西现在都移到了 yarn 中。因此，我不得不使用 yarn-site.xml 文件，而不是使用 mapred-site.xml 文件，并将其添加到其中：

<property>
 <name>yarn.resourcemanager.hostname</name>
 <value>firstMachine</value>
</property>

（注意我没有添加端口，这里只声明主机。端口将以其默认值使用）。

现在控制台显示 2 个活动节点，map/reduce 作业的速度提高了大约 20%。

【讨论】：