【问题标题】:Prometheus Alert Manager - CPU high not alertingPrometheus 警报管理器 - CPU 高不警报
【发布时间】:2021-12-23 22:02:02
【问题描述】:

我配置了 prometheus 警报管理器,但是当我的一台服务器的 CPU 达到 99% 的使用率时,他没有发出警报。 这是警报:

- alert: HostHighCpuLoad
  expr: avg(irate(node_cpu_seconds_total{mode="idle"}[1m]) * 100) < 30
  for: 1m
  labels:
    severity: warning
  annotations:
    summary: "High usage on {{ $labels.instance }}"
    description: "{{ $labels.instance }} has a average CPU idle (current value: {{ $value }}s)"

看起来像我的表达方式,取我所有服务器的全局平均值,但我需要监控每台服务器的这个度量。

有人遇到过这个问题吗?

【问题讨论】:

    标签: prometheus prometheus-alertmanager


    【解决方案1】:

    是的,它正在考虑所有实例的平均值。将表达式更改为:

    avg by (instance) (irate(node_cpu_seconds_total{mode="idle"}[1m]) * 100) < 30
    

    【讨论】:

    • 非常感谢!
    猜你喜欢
    • 2020-04-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-02-28
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-01-29
    相关资源
    最近更新 更多