【问题标题】:CPU Load average rule for 5 minutes5 分钟 CPU 负载平均规则
【发布时间】:2020-01-06 12:23:05
【问题描述】:

我们正在使用 Prometheus-Grafana。现在我们要设置 CPU 平均负载为 5 分钟的警报。

我们有 60 台具有不同 CPU 核心的服务器,例如很少有机器有 1 核、2 核、6 核、8 核等。

以下规则将给出加载 5 分钟的结果。但它不会区分机器是单核还是多核。

- name: alerting_rules
    rules:
      - alert: LoadAverage15m
        expr: node_load5 >= 0.75
        labels:
          severity: major
        annotations:
          summary: "Instance {{ $labels.instance }} - high load average"
          description: "{{ $labels.instance  }} (measured by {{ $labels.job }}) has high load average ({{ $value }}) over 5 minutes."

我尝试了以下规则,但它也不起作用:

- alert: LoadAverage5minutes
    expr: node_load5/count(node_cpu{mode="idle"}) without (cpu,mode) >= 0.95
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Load average is high for 5 minutes (instance {{ $labels.instance }})"
      description: "Load is high \n  VALUE = {{ $value }}\n  LABELS: {{ $labels }}"

你能帮我在我的规则中进行哪些更改,以便它可以工作。

谢谢。

【问题讨论】:

    标签: prometheus prometheus-alertmanager


    【解决方案1】:

    下面的表达式应该可以工作:

    expr: node_load5 / count by (instance, job) (node_cpu_seconds_total{mode="idle"}) >= 0.95
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-05-02
      • 1970-01-01
      • 2017-10-07
      • 1970-01-01
      • 1970-01-01
      • 2021-01-17
      • 2016-07-20
      • 1970-01-01
      相关资源
      最近更新 更多