【问题标题】:Hadoop Number of Reducers Configuration Options PriorityHadoop 减速器数量 配置选项 优先级
【发布时间】:2014-01-08 21:24:58
【问题描述】:
以下 3 个设置减少数量的选项的优先级是什么?也就是说,如果三个都设置了,会考虑哪一个?
选项1:
setNumReduceTasks(2) within the application code
选项2:
-D mapreduce.job.reduces=2 as command line argument
选项3:
through $HADOOP_CONF_DIR/mapred-site.xml file
<property>
<name>mapreduce.job.reduces</name>
<value>2</value>
</property>
【问题讨论】:
标签:
hadoop
configuration
mapreduce
reduce
hadoop-yarn
【解决方案1】:
根据Hadoop - The Definitive Guide
-D 选项用于将带有键颜色的配置属性设置为值
黄色的。使用 -D 指定的选项优先于配置中的属性
文件。这非常有用,因为您可以将默认值放入配置文件,然后
根据需要使用 -D 选项覆盖它们。一个常见的例子是设置
通过 -D mapred.reduce.tasks=n 的 MapReduce 作业的 reducer 数量。这会
覆盖在集群上设置或在任何客户端配置中设置的减速器数量
文件。
【解决方案2】:
您按优先顺序排列它们 - 选项 1 将覆盖 2,而 2 将覆盖 3。换句话说,选项 1 将是您的工作在这种情况下使用的选项
【解决方案3】:
第一优先级:通过命令行传递配置参数(同时提交 MR 应用程序)
第二优先级:在应用程序代码中设置配置参数
第三优先级:会从core-site.xml、hadoop-env.sh、hdfs-site.xml、log4j.properties、mapred-site.xml等多个xml文件中读取默认参数