Apache Hadoop 2.0 中的 Map Reduce 作业答案

【问题标题】：Map Reduce Job in Apache Hadoop 2.0Apache Hadoop 2.0 中的 Map Reduce 作业
【发布时间】：2014-02-15 13:39:09
【问题描述】：

我正在关注Michael Noll 设置多节点集群和运行示例 MapReduce 程序的教程。我正在设置 Hadoop 版本 2.2.0。 Hadoop 2.2.0 中没有contrib 目录。我使用当前目录中的 find 命令搜索 jars。搜索结果是

我的问题是如何在 Hadoop 多节点集群环境中运行 mapreduce 程序？

【问题讨论】：

【解决方案1】：

在多节点集群上运行 MapReduce 程序与单节点相同。运行 0.23 及更高版本（甚至 2.2.0）的示例 mapreduce 程序的步骤在链接中给出：Learnig hadoop。这里给出了 Wordcount 程序。即使你可以用同一个 jar 运行 pi-estimator

【讨论】：

【解决方案2】：

我们有一个 4 节点的 hadoop-2.2.0 集群。

能够使用以下命令从 hadoop 根文件夹（在我们的例子中为 /usr/local/hadoop）从命令行运行 wordcount 测试：

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /user/
hduser/in /user/hduser/out

注意：

- folder name is different under hadoop: /share/hadoop/mapreduce/

我们创建了 hduser/in 文件夹 (hdfs dfs -mkdir -p /user/hduser/in)，将 wordcount 测试文件复制到其中 (hdfs dfs -copyFromLocal wc_test.txt /user/hduser/in) 并指定输出文件夹（应该不存在）。

【讨论】：