【发布时间】:2017-09-29 02:29:36
【问题描述】:
两个Node集群Node A,Node B。
服务 X 在节点 A 上运行,节点 B 是 DC。
我们在 Pacemaker 中使用堆栈 corosync。 失败超时为 10 秒。 目标角色已启动。
事件是这样发生的 节点 A 向节点 B 发送事件 服务 X 已关闭 节点 B 打印 Ignoring expired failure for Service X 在此之后,集群永远不会重新启动 Service X。
现在的问题是:
- 为什么节点 B (DC) 会忽略过期故障?
- 即使此时 DC 被忽略,但服务 X 已关闭,节点 A 应监控服务并再次向节点 B 发送故障状态,此时节点 B 应重新启动服务。为什么这没有发生?
【问题讨论】:
标签: cluster-computing pacemaker