【问题标题】:Can prometheus don't resolve alert when metric data missing?当指标数据丢失时,prometheus 能否解决警报?
【发布时间】:2020-05-28 07:27:27
【问题描述】:

有我的普罗米修斯警报规则

avg_over_time(metricName[1m]) > 100

警报触发后,当度量数据丢失超过 1 分钟时,警报将被解决。

有没有办法阻止警报状态的变化?

【问题讨论】:

  • 我认为该选项不存在,因为其想法是将警报基于指标。据我所知,你有两个选择。 1. 将查询范围从 1m 增加到更多,这样如果您缺少 minuet 的指标,它不会影响您,或者您可以使用缺席函数,当没有指标时返回 1。
  • 选项1是我目前能找到的最好的方式,但是对于不懂proemetheus的用户在收到alert信息时并不友好。方案二可以让promethues在数据丢失时不触发alert,但是当数据丢失时,alert还是会解决。
  • 如果promethues支持设置另一个规则来控制什么时候解决alert,这个问题就可以解决了。
  • 我认为您可以通过在警报描述中解释它代表什么来使警报更清晰,然后接收者不应该真正关心您如何计算警报。我不相信您可以使用警报来解决不同的警报。

标签: prometheus


【解决方案1】:

您可以通过利用我的answer here 中的 last_over_time() 来做到这一点。

(回答这个老问题,因为它仍然是谷歌排名很高的结果)

【讨论】:

    猜你喜欢
    • 2022-01-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-01-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多