【问题标题】:Hadoop removes MapReduce history when it is restartedHadoop 在重新启动时删除 MapReduce 历史记录
【发布时间】:2013-10-28 21:38:32
【问题描述】:

我正在使用 TestDFSIO 和 TeraSort 基准测试工具执行几个 Hadoop 测试。我基本上是在使用不同数量的数据节点进行测试,以评估处理能力的线性度和数据节点的可扩展性。

在上面提到的过程中,我显然不得不重启几次所有的Hadoop环境。每次我重新启动 Hadoop 时,都会删除所有 MapReduce 作业,并且作业计数器会从“job_2013*_0001”重新开始。出于比较的原因,保持之前启动的所有 MapReduce 作业对我来说非常重要。所以,我的问题是:

¿如何避免 Hadoop 在重新启动后删除所有 MapReduce 作业历史记录? ¿ Hadoop 环境重启后是否有一些属性可以控制作业删除?

谢谢!

【问题讨论】:

    标签: hadoop mapreduce mrjob


    【解决方案1】:

    重启hadoop后MR作业历史日志不会立即删除,新作业将从*_0001开始计数,但只有在hadoop重启后启动的新作业才会显示在资源管理器门户网站上。其实来自yarn default的日志相关设置有2个:

    # this is where you can find the MR job history logs
    yarn.nodemanager.log-dirs = ${yarn.log.dir}/userlogs 
    
    # this is how long the history logs will be retained
    yarn.nodemanager.log.retain-seconds = 10800
    

    并且默认的 ${yarn.log.dir} 在 $HADOOP_HONE/etc/hadoop/yarn-env.sh 中定义。

    YARN_LOG_DIR="$HADOOP_YARN_HOME/logs"
    

    顺便说一句,如果您使用 Hadoop 1.X,也可以在 mapred-env.sh 中找到类似的设置

    【讨论】:

    • 谢谢朱图拉拉的回答。我虽然任何机构都会给我一个答案。我会测试你的建议!
    猜你喜欢
    • 2013-02-25
    • 2011-02-10
    • 1970-01-01
    • 2011-08-13
    • 1970-01-01
    • 2019-06-30
    • 2017-12-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多