【发布时间】:2015-04-04 08:39:57
【问题描述】:
我正在用 R 编写 Hadoop 流式作业,我遇到了一个相当奇怪的情况,我找不到任何文档。我想运行一个直接传递给另一个映射器的减少作业(不需要映射器)。是否可以在没有初始映射器的减少作业之后直接堆叠映射作业?如果我编写一个身份映射器将输出传递给我的reduce作业,那么我可以将reduce输出传递给另一个映射器,如果是这样,怎么做?我当前的代码是:
$HADOOP_HOME/bin/hadoop jar /opt/cloudera/parcels/CDH-5.3.2-1.cdh5.3.2.p0.10/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar \
-reduce myreducer.r \
-input myinput/ \
-output myoutputdir \
-file file1.r \
-file file2.Rdata
这是行不通的。
【问题讨论】: