【发布时间】:2016-09-07 11:50:22
【问题描述】:
一个 spark 作业运行超过 23 天,最终导致资源管理器崩溃。重启资源管理器后(我们集群有两个)都处于待机状态。
我们得到了这个错误:
错误 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager 无法加载/恢复状态 org.apache.hadoop.yarn.exceptions.YarnException:ID 为 application_1470300000724_40101 的应用程序已经存在!无法添加副本!
由于资源管理器不工作,我们无法从 yarn 中杀死“application_1470300000724_40101”。因此,我们在所有节点上从 Unix 级别杀死了所有实例,但 dint 工作。我们已尝试重新启动所有节点,但仍然如此。
某处该作业的一个条目仍然存在,并阻止资源管理器被选为活动状态。我们使用的是 cloudera 5.3.0,我可以看到这个问题已经在 cloudera 5.3.3 中得到解决和解决。但此时此刻,我们需要一个解决方法来解决这个问题。
【问题讨论】:
标签: mapreduce hadoop-yarn hadoop2 resourcemanager