【问题标题】:Nagios: Make sure x out of y services are runningNagios:确保 x out of y 服务正在运行
【发布时间】:2014-02-03 16:52:30
【问题描述】:

我正在为我们的系统引入 24/7 全天候监控。为了避免在半夜出现不必要的页面,我希望 Nagios 不会对我进行页面,如果只有一两个服务检查失败,因为这不会对用户产生任何影响:其他服务器运行相同的服务和影响对用户的影响几乎为零,因此解决问题的时间要到第二天。

但是:如果太多的检查失败,我想得到分页。

例如:50 台服务器运行相同的服务,2 台失败 -> 我仍然可以睡觉。 该服务在 15 台服务器上失败 -> 我被分页,因为影响越来越大。

我可以做的是添加很多(!)通知依赖项,这些依赖项仅在许多主机关闭时才会触发。问题:即使我可以指定在 15 台主机关闭时进行寻呼,我仍然必须准确定义哪些主机需要关闭才能发送此警报。我宁愿指定如果 ANY 15 个主机关闭,则创建一个页面。

如果有人可以帮助我,我会很高兴。

【问题讨论】:

    标签: monitoring nagios high-availability


    【解决方案1】:

    就我个人而言,我正在使用带有 business rules 的 Shinken。 Shinken 向后兼容 Nagios,因此很容易将您的 nagios 配置放入 Shinken。

    nagios Nagios Business Process Intelligence Addon 似乎有一个类似的插件,但我没有使用这个插件的经验。

    【讨论】:

    • 感谢文森特分享您的经验。我不能将所有内容都移到 Shrinken 和 Nagios,Nagios 业务流程智能插件似乎不太好用。我决定只写一个简单的 python 脚本,它可以解决我需要的所有问题,并且只需要三分之一的时间。稍后我将在这里分享我对此的见解。
    猜你喜欢
    • 1970-01-01
    • 2019-03-04
    • 1970-01-01
    • 2019-08-20
    • 1970-01-01
    • 2016-12-17
    • 1970-01-01
    • 2018-04-04
    • 1970-01-01
    相关资源
    最近更新 更多