【发布时间】:2015-06-02 03:00:12
【问题描述】:
我的问题类似于:hadoop streaming: how to see application logs? (答案中的链接目前不起作用。所以我必须再次发布它并提出一个额外的问题)
我可以在我的 /usr/local/hadoop/logs 路径上看到所有 hadoop 日志
但是我在哪里可以看到应用程序级别的日志?例如:
reducer.py -
import logging
....
logging.basicConfig(level=logging.ERROR, format='MAP %(asctime)s%(levelname)s%(message)s')
logging.error('Test!')
...
我在 stderr 中看不到任何日志(警告、错误)。
在哪里可以找到应用程序的日志语句?我正在使用 Python 并使用 hadoop-streaming。
补充问题:
如果我想使用文件来存储/聚合我的应用程序日志,例如:
reducer.py -
....
logger = logging.getLogger('test')
hdlr = logging.FileHandler(os.environ['HOME']+'/test.log')
formatter = logging.Formatter('MAP %(asctime)s %(levelname)s %(message)s')
hdlr.setFormatter(formatter)
logger.addHandler(hdlr)
logger.setLevel(logging.ERROR)
logger.error('please work!!')
.....
(假设我在我的 hadoop 集群中的主服务器和所有从服务器的 $HOME 位置有 test.log)。我可以在像 Hadoop 这样的分布式环境中实现这一点吗?如果是这样,怎么能做到这一点?
我尝试了这个并运行了一个示例流作业,但只看到以下错误:
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 1
at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:330)
at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:543)
at org.apache.hadoop.streaming.PipeReducer.close(PipeReducer.java:134)
at org.apache.hadoop.io.IOUtils.cleanup(IOUtils.java:237)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:484)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:397)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:175)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:170)
Container killed by the ApplicationMaster.
Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143
请帮助我了解如何在 hadoop 流作业中实现日志记录。
谢谢
【问题讨论】:
-
我知道这是一个重复的问题,我在问题的第一行也提到过。但是答案中的链接已损坏,而且当我使用上述伪代码时,我仍然无法在 stderr 中看到警告/错误日志。另外我还有一个关于在文件中聚合日志的问题。
标签: python hadoop logging mapreduce hadoop-streaming