【问题标题】:Map Reduce Job in Apache Hadoop 2.0Apache Hadoop 2.0 中的 Map Reduce 作业
【发布时间】:2014-02-15 13:39:09
【问题描述】:
我正在关注Michael Noll 设置多节点集群和运行示例 MapReduce 程序的教程。我正在设置 Hadoop 版本 2.2.0。 Hadoop 2.2.0 中没有contrib 目录。我使用当前目录中的 find 命令搜索 jars。
搜索结果是
我的问题是如何在 Hadoop 多节点集群环境中运行 mapreduce 程序?
【问题讨论】:
标签:
java
apache
hadoop
mapreduce
hadoop-streaming
【解决方案1】:
在多节点集群上运行 MapReduce 程序与单节点相同。运行 0.23 及更高版本(甚至 2.2.0)的示例 mapreduce 程序的步骤在链接中给出:Learnig hadoop。
这里给出了 Wordcount 程序。即使你可以用同一个 jar 运行 pi-estimator
【解决方案2】:
我们有一个 4 节点的 hadoop-2.2.0 集群。
能够使用以下命令从 hadoop 根文件夹(在我们的例子中为 /usr/local/hadoop)从命令行运行 wordcount 测试:
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /user/
hduser/in /user/hduser/out
注意:
- folder name is different under hadoop: /share/hadoop/mapreduce/
我们创建了 hduser/in 文件夹 (hdfs dfs -mkdir -p /user/hduser/in),将 wordcount 测试文件复制到其中 (hdfs dfs -copyFromLocal wc_test.txt /user/hduser/in) 并指定输出文件夹(应该不存在)。