【问题标题】:Kubernetes CronJob - Prometheus alertsKubernetes CronJob - 普罗米修斯警报
【发布时间】:2022-11-02 21:30:06
【问题描述】:

我正在尝试弄清楚如何使用 kube-state-metrics 为我的 kubernetes cronjob 为以下场景创建 Prometheus 警报。

  1. 如果我的 cronjob 失败,发送警报,如果它仍然失败或存在另一个失败的 cronjob,则在一分钟后继续发送警报,每 5 分钟发送一次警报,否则解决。
  2. 如果我的 cronjob 运行超过一分钟,请发送警报。

    我试过count_over_time(kube_job_failed[1m]) > 0,它给了我一个失败警报,但从来没有自行解决。

    任何指导将不胜感激。

【问题讨论】:

    标签: kubernetes devops prometheus prometheus-alertmanager kubernetes-cronjob


    【解决方案1】:

    使用以下查询自行解决警报。

    increase(kube_job_status_failed{job=~"mytestjob-.*"}[5m]) > 1
    

    有关更多信息,请参阅以下链接 monitor-kube-cron-jobs-using-prometheusstack link

    【讨论】:

      猜你喜欢
      • 2017-09-03
      • 2019-02-28
      • 2021-07-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-01-22
      • 2021-12-24
      • 1970-01-01
      相关资源
      最近更新 更多