【发布时间】:2019-06-27 22:55:08
【问题描述】:
我在浏览 Hadoop 网站时发现了以下有关 hadoop 流的链接。
https://hadoop.apache.org/docs/current1/streaming.html
但是,我对 Hadoop YARN (MRv2) - 流式命令行选项更感兴趣。
如果有人有详尽的清单,你能把它贴在这里吗?
如果没有找到,谁能告诉我以下命令中的命令行选项是否非法。
yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar \
-D mapred.jab.name="Streaming wordCount Rating" \
-D mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapreduce.lib.partition.KeyFieldBasedComparator \
-D map.output.key.field.separator=\t \
-D mapreduce.partition.keycomparator.options=-k2,2nr \
-D mapreduce.job.reduces=${NUM_REDUCERS} \
-files mapper2.py,reducer2.py \
-mapper "python mapper2.py" \
-reducer "python reducer2.py" \
-input ${OUT_DIR} \
-output ${OUT_DIR_2} > /dev/null
【问题讨论】:
标签: hadoop mapreduce hadoop-yarn hadoop-streaming