【发布时间】:2021-07-02 08:45:24
【问题描述】:
我有大约 1000 个使用 HTTP 探测的目标。
job="http_2xx", env="prod", instance="x.x.x.x"
job="http_2xx", env="test", instance="y.y.y.y"
job="http_2xx", env="dev", instance="z.z.z.z"
我想知道目标:
- 过去 10 分钟内 env 的故障率。
- 过去 10 分钟内 env 的失败率增加。
- 很好奇以下内容的作用:
sum(increase(probe_success{job="http_2xx"}[10m]))
rate(probe_success{job="http_2xx", env="prod"}[5m]) * 100
我所达到的最接近的是在 10 分钟内通过 env 找到操作:
avg(avg_over_time(probe_success{job="http_2xx", env="prod"}[10m]) * 100)
【问题讨论】:
标签: monitoring prometheus prometheus-alertmanager prometheus-blackbox-exporter