【发布时间】:2021-11-21 13:20:27
【问题描述】:
我们有一个系统可以在 Kubernetes 集群中启动短期 pod,并在它们开始运行时等待长达 2 分钟,否则,它会杀死它们。 我希望在使用 Prometheus 时收到警报。
我创建了以下警报表达式:
min_over_time(sum by (namespace, pod) (kube_pod_status_phase{phase="Pending"})[2m:30s]) > 0
并面临许多误报通知。
据我了解,当 Prometheus 在 pod 生命周期的早期评估表达式时,它将始终返回 1,我需要添加一个附加条件来说明 Prometheus 类似“如果 pod 处于 Pending 状态2 分钟,超过 4 个数据点返回 1"。 有人知道如何扩展上面的表达式并添加附加条件吗?
【问题讨论】:
标签: prometheus promql