【发布时间】:2014-02-03 16:52:30
【问题描述】:
我正在为我们的系统引入 24/7 全天候监控。为了避免在半夜出现不必要的页面,我希望 Nagios 不会对我进行页面,如果只有一两个服务检查失败,因为这不会对用户产生任何影响:其他服务器运行相同的服务和影响对用户的影响几乎为零,因此解决问题的时间要到第二天。
但是:如果太多的检查失败,我想得到分页。
例如:50 台服务器运行相同的服务,2 台失败 -> 我仍然可以睡觉。 该服务在 15 台服务器上失败 -> 我被分页,因为影响越来越大。
我可以做的是添加很多(!)通知依赖项,这些依赖项仅在许多主机关闭时才会触发。问题:即使我可以指定在 15 台主机关闭时进行寻呼,我仍然必须准确定义哪些主机需要关闭才能发送此警报。我宁愿指定如果 ANY 15 个主机关闭,则创建一个页面。
如果有人可以帮助我,我会很高兴。
【问题讨论】:
标签: monitoring nagios high-availability