【发布时间】:2020-05-28 07:27:27
【问题描述】:
有我的普罗米修斯警报规则
avg_over_time(metricName[1m]) > 100
警报触发后,当度量数据丢失超过 1 分钟时,警报将被解决。
有没有办法阻止警报状态的变化?
【问题讨论】:
-
我认为该选项不存在,因为其想法是将警报基于指标。据我所知,你有两个选择。 1. 将查询范围从 1m 增加到更多,这样如果您缺少 minuet 的指标,它不会影响您,或者您可以使用缺席函数,当没有指标时返回 1。
-
选项1是我目前能找到的最好的方式,但是对于不懂proemetheus的用户在收到alert信息时并不友好。方案二可以让promethues在数据丢失时不触发alert,但是当数据丢失时,alert还是会解决。
-
如果promethues支持设置另一个规则来控制什么时候解决alert,这个问题就可以解决了。
-
我认为您可以通过在警报描述中解释它代表什么来使警报更清晰,然后接收者不应该真正关心您如何计算警报。我不相信您可以使用警报来解决不同的警报。
标签: prometheus