资源管理器不会从备用状态转换到活动状态答案

【问题标题】：Resource manager does not transit to active state from standby资源管理器不会从备用状态转换到活动状态
【发布时间】：2016-09-07 11:50:22
【问题描述】：

一个 spark 作业运行超过 23 天，最终导致资源管理器崩溃。重启资源管理器后（我们集群有两个）都处于待机状态。

我们得到了这个错误：

错误 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager 无法加载/恢复状态 org.apache.hadoop.yarn.exceptions.YarnException：ID 为 application_1470300000724_40101 的应用程序已经存在！无法添加副本！

由于资源管理器不工作，我们无法从 yarn 中杀死“application_1470300000724_40101”。因此，我们在所有节点上从 Unix 级别杀死了所有实例，但 dint 工作。我们已尝试重新启动所有节点，但仍然如此。

某处该作业的一个条目仍然存在，并阻止资源管理器被选为活动状态。我们使用的是 cloudera 5.3.0，我可以看到这个问题已经在 cloudera 5.3.3 中得到解决和解决。但此时此刻，我们需要一个解决方法来解决这个问题。

【问题讨论】：

标签： mapreduce hadoop-yarn hadoop2 resourcemanager

【解决方案1】：

要解决这个问题，我们可以通过执行以下命令来格式化 RMStateStore：

yarn resourcemanager -format-state-store

但要小心，因为这会清除执行此命令之前执行的所有应用程序历史记录。

【讨论】：