Hadoop 在重新启动时删除 MapReduce 历史记录

【问题标题】：Hadoop removes MapReduce history when it is restartedHadoop 在重新启动时删除 MapReduce 历史记录
【发布时间】：2013-10-28 21:38:32
【问题描述】：

我正在使用 TestDFSIO 和 TeraSort 基准测试工具执行几个 Hadoop 测试。我基本上是在使用不同数量的数据节点进行测试，以评估处理能力的线性度和数据节点的可扩展性。

在上面提到的过程中，我显然不得不重启几次所有的Hadoop环境。每次我重新启动 Hadoop 时，都会删除所有 MapReduce 作业，并且作业计数器会从“job_2013*_0001”重新开始。出于比较的原因，保持之前启动的所有 MapReduce 作业对我来说非常重要。所以，我的问题是：

¿如何避免 Hadoop 在重新启动后删除所有 MapReduce 作业历史记录？ ¿ Hadoop 环境重启后是否有一些属性可以控制作业删除？

谢谢！

【问题讨论】：

标签： hadoop mapreduce mrjob

【解决方案1】：

重启hadoop后MR作业历史日志不会立即删除，新作业将从*_0001开始计数，但只有在hadoop重启后启动的新作业才会显示在资源管理器门户网站上。其实来自yarn default的日志相关设置有2个：

# this is where you can find the MR job history logs
yarn.nodemanager.log-dirs = ${yarn.log.dir}/userlogs 

# this is how long the history logs will be retained
yarn.nodemanager.log.retain-seconds = 10800

并且默认的 ${yarn.log.dir} 在 $HADOOP_HONE/etc/hadoop/yarn-env.sh 中定义。

YARN_LOG_DIR="$HADOOP_YARN_HOME/logs"

顺便说一句，如果您使用 Hadoop 1.X，也可以在 mapred-env.sh 中找到类似的设置

【讨论】：

谢谢朱图拉拉的回答。我虽然任何机构都会给我一个答案。我会测试你的建议！