【问题标题】:Hadoop, MapReduce: how to add second node to mapReduce?Hadoop,MapReduce:如何将第二个节点添加到 mapReduce?
【发布时间】:2013-11-08 14:16:54
【问题描述】:

我有一个包含 2 个节点的 Hadoop 0.2.2 集群。在我启动的第一台机器上:

  • 名称节点
  • 数据节点
  • 节点管理器
  • 资源管理器
  • JobHistoryServer

第二个我也开始所有这些,除了namenode:

  • 数据节点
  • 节点管理器
  • 资源管理器
  • JobHistoryServer

我在两台机器上的mapred-site.xml 包含:

<property>
  <name>mapred.job.tracker</name>
  <value>firstMachine:54311</value>
</property>

我在两台机器上的 core-site.xml 包含:

<property>
   <name>fs.default.name</name>
   <value>hdfs://firstMachine:9000</value>
</property>

http://firstMachine:50070 的控制台报告 2 个节点:

 Live Nodes     :   2 (Decommissioned: 0)

但是http://firstMachine:8088 的控制台(带有地图减少工作历史和所有内容的控制台)一直在说:

Active Nodes: 1

此外,无论是否使用第二台机器执行 map reduce,Hadoop 都会产生几乎相同的性能。使用 wordcout 示例进行了尝试,使用了 4 个大文件。

我的问题是:如何检查我的 map reduce 是否实际在多台(在本例中为 2 台)机器上执行,而不仅仅是启动它的那台机器?

如果我的 Hadoop map reduce 实际上没有看到其他 Hadoop 实例,我如何让它看到它(如何配置它以在 2 台机器上运行 map reduce)?

【问题讨论】:

    标签: hadoop configuration mapreduce cluster-computing


    【解决方案1】:

    好的,我找到了答案。显然,在 2.2 版中,大多数(全部?)与 mapred 相关的东西现在都移到了 yarn 中。因此,我不得不使用 yarn-site.xml 文件,而不是使用 mapred-site.xml 文件,并将其添加到其中:

    <property>
     <name>yarn.resourcemanager.hostname</name>
     <value>firstMachine</value>
    </property>
    

    (注意我没有添加端口,这里只声明主机。端口将以其默认值使用)。

    现在控制台显示 2 个活动节点,map/reduce 作业的速度提高了大约 20%。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-06-26
      • 2014-10-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多