【发布时间】:2019-03-02 12:11:59
【问题描述】:
在 Spark/YARN 上运行分布式应用程序,我收到以下错误,该错误会杀死执行程序,并最终杀死整个应用程序:
#
# A fatal error has been detected by the Java Runtime Environment:
#
# SIGSEGV (0xb) at pc=0x00007f4f85ab41b1, pid=3309, tid=0x00007f4f90a4e700
#
# JRE version: Java(TM) SE Runtime Environment (8.0_112-b15) (build 1.8.0_112-b15)
# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.112-b15 mixed mode linux-amd64 compressed oops)
# Problematic frame:
# C [libSalience6.so+0x7631b1] lxaArrayTrie::Get(std::string const&) const+0x71
#
# Core dump written. Default location: /data/hadoop/yarn/local/usercache/koverse/appcache/application_1537930191769_0049/container_e08_1537930191769_0049_01_000016/core or core.3309
#
# An error report file with more information is saved as:
# /data/hadoop/yarn/local/usercache/koverse/appcache/application_1537930191769_0049/container_e08_1537930191769_0049_01_000016/hs_err_pid3309.log
#
# If you would like to submit a bug report, please visit:
# http://bugreport.java.com/bugreport/crash.jsp
# The crash happened outside the Java Virtual Machine in native code.
# See problematic frame for where to report the bug.
#
libSalience6.so 中存在分段错误。到目前为止一切顺利!
但核心转储文件或日志文件都不是他们所说的位置。
这个错误发生在一个集群的slv004上,所以yarn应用目录
/data/hadoop/yarn/local/usercache/koverse/appcache/application_1537930191769_0049
存在于该节点上。但是容器目录不存在,find 没有检测到日志文件。
您知道这个日志文件可能在哪里吗?
【问题讨论】:
-
根据定义,YARN 容器是 volatile——为作业下载或由作业创建的本地文件在执行终止后立即被取消。只有 YARN 日志文件会保留一段时间(或立即移动到 HDFS,如果启用了日志聚合)。
标签: apache-spark logging jvm segmentation-fault hadoop-yarn