【问题标题】:Dumbo mapreduce for hadoop用于 hadoop 的 Dumbo mapreduce
【发布时间】:2015-03-02 18:23:11
【问题描述】:

我正在尝试在 hadoop 集群上运行 Dumbo MapReduce 命令,但出现以下错误。

15/03/02 17:55:28 错误流。StreamJob:作业不成功。错误:不适用 2002 年 15 月 3 日 17:55:28 信息流。StreamJob:killJob... 流式传输命令失败!

看来我需要提供 Hadoop 流 jar 的路径。 我怎样才能找到这个以及 Hadoop 流 jar 是什么?

我的dumbo命令如下:

dumbo start test_dumbo6.py -hadoop /apps/hadoop/ -input /storage/user/jj/json.log -output ipcounts2

【问题讨论】:

    标签: hadoop mapreduce


    【解决方案1】:

    关于 Hadoop 流的文档:http://hadoop.apache.org/docs/r1.2.1/streaming.html

    Hadoop 流是 hadoop 核心的一部分,因此应该在 $Hadoop_HOME/lib 目录中可用。

    这个库可以通过添加一个额外的参数添加到你的工作中:

    -libjar <path_to_jar>
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-10-11
      • 1970-01-01
      • 2010-12-30
      • 2013-04-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多