【发布时间】:2022-11-02 21:30:06
【问题描述】:
我正在尝试弄清楚如何使用 kube-state-metrics 为我的 kubernetes cronjob 为以下场景创建 Prometheus 警报。
- 如果我的 cronjob 失败,发送警报,如果它仍然失败或存在另一个失败的 cronjob,则在一分钟后继续发送警报,每 5 分钟发送一次警报,否则解决。
- 如果我的 cronjob 运行超过一分钟,请发送警报。
我试过
count_over_time(kube_job_failed[1m]) > 0,它给了我一个失败警报,但从来没有自行解决。任何指导将不胜感激。
【问题讨论】:
标签: kubernetes devops prometheus prometheus-alertmanager kubernetes-cronjob