【问题标题】:Resource manager does not transit to active state from standby资源管理器不会从备用状态转换到活动状态
【发布时间】:2016-09-07 11:50:22
【问题描述】:

一个 spark 作业运行超过 23 天,最终导致资源管理器崩溃。重启资源管理器后(我们集群有两个)都处于待机状态。

我们得到了这个错误:

错误 org.apache.hadoop.yarn.server.resourcemanager.ResourceManager 无法加载/恢复状态 org.apache.hadoop.yarn.exceptions.YarnException:ID 为 application_1470300000724_40101 的应用程序已经存在!无法添加副本!

由于资源管理器不工作,我们无法从 yarn 中杀死“application_1470300000724_40101”。因此,我们在所有节点上从 Unix 级别杀死了所有实例,但 dint 工作。我们已尝试重新启动所有节点,但仍然如此。

某处该作业的一个条目仍然存在,并阻止资源管理器被选为活动状态。我们使用的是 cloudera 5.3.0,我可以看到这个问题已经在 cloudera 5.3.3 中得到解决和解决。但此时此刻,我们需要一个解决方法来解决这个问题。

【问题讨论】:

    标签: mapreduce hadoop-yarn hadoop2 resourcemanager


    【解决方案1】:

    要解决这个问题,我们可以通过执行以下命令来格式化 RMStateStore

    yarn resourcemanager -format-state-store
    

    但要小心,因为这会清除执行此命令之前执行的所有应用程序历史记录。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-07-21
      • 2011-12-19
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多