【问题标题】:Nagios conditional checksNagios 条件检查
【发布时间】:2013-11-26 15:06:43
【问题描述】:

目前,我正在监视我的目标 Windows 主机的一系列服务(CPU、内存、磁盘、ssl 证书、http 等)。我使用 nsclient 作为 nagios 服务器将与之通信的客户端。

我的问题是我每 24 小时部署到这些主机 3 次。部署过程需要重新启动主机。每当我的主机重新启动时,我都会收到每个服务的 nagios 警报。这意味着大量的警报,这使得识别真正的问题变得困难。

最好是这样:

  • 如果主机已关闭,则不要为其余服务发送任何警报
  • 如果主机正在重新启动,这意味着 nsclient 不可访问。我只想收到一个警报(例如 CPU 不可访问)并将其他所有内容静音几分钟,以便主机可以完成启动并且 nsclient 可用。

实施这将使我在每次部署时为每个主机收到一封电子邮件。这比一切都变红并且我被不值得检查的警报淹没要好得多(因为它们只是因为 nagios 客户端 -nsclient- 在重新启动期间不可用而被发送)。

喜欢使用 Windows 堆栈...

【问题讨论】:

    标签: nagios


    【解决方案1】:

    有几种方法可以处理这个问题。

    如果您的部署每天都在同一时间发生:
    1.您可以修改您的活动时间段以排除这些时间(或)
    2. 通过 Nagios GUI 为您的主机安排停机时间

    如果您的部署发生在不同/随机的时间,事情就会变得有点难以解决:
    1. 当 nrpe 或 nsclient 不可达时,Nagios 经常会抛出一个 'UNKNOWN' 警报进行检查。如果您删除以下条目的“u”选项:

    host_notification_options   [d,u,r,f,s,n]
    service_notification_options    [w,u,c,r,f,s,n]
    

    这将阻止“未知”发送通知。 (或)
    2. 动态修改受影响检查的活动检查,方法是在开始部署之前“关闭它们”,然后在部署之后“打开它们”。这可以使用 Nagios 的“外部命令文件”自动完成。

    【讨论】:

      【解决方案2】:

      Jim Black 的回答会起作用,或者如果您想更深入地了解,您可以使用服务通知升级来定义依赖关系,如下面的文档中所述。

      升级警报意味着您可以定义:CPU/ssl 等检查失败 -> 检查主机故障 -> 通知/不通知。

      Nagios Service Escalation (3.0)

      【讨论】:

      • 我不同意。 “主要”检查失败的原因有 100 多种,但这并不意味着主机实际上已关闭。主检查失败会导致任何相关检查无法运行。
      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-09-30
      • 2017-06-21
      相关资源
      最近更新 更多