如何使用 Prometheus 显示集群的汇总 CPU、RAM、磁盘 I/O 使用情况？

【问题标题】：How to show aggregated CPU, RAM, Disk I/O usage of a cluster using Prometheus?如何使用 Prometheus 显示集群的汇总 CPU、RAM、磁盘 I/O 使用情况？
【发布时间】：2019-11-26 21:11:34
【问题描述】：

我有 3 台服务器。我将 Prometheus 与 Node 导出器一起使用，并且为了可视化 Prometheus 数据，我正在使用 Grafana。 Node Exporter Full (1860) 仪表板只能单独显示每个服务器的 CPU、RAM、磁盘 I/O 使用情况。我想获取整体使用情况，例如，我想获取整个集群 (sarver1 + sarver2 + sarver3) 的汇总 CPU、RAM 和磁盘 I/O 使用情况。我应该使用哪些查询来获取集群资源的总利用率？

【问题讨论】：

标签： prometheus grafana prometheus-node-exporter

【解决方案1】：

假设您有以下查询来获取 CPU 使用率：

100 - (avg(irate(node_cpu_seconds_total{instance="server1",mode="idle"}[5m])) * 100)

要获取多台服务器的整体情况，您需要将查询更改为以下内容：

100 - (avg(irate(node_cpu_seconds_total{instance=~"server1|server2|server3",mode="idle"}[5m])) * 100)

【讨论】：

我想以百分比显示集群 CPU 使用率。你能写出百分比的答案吗？而且我可以看到你正在使用空闲模式，这是 CPU 无事可做的时间。
其实例子中CPU使用率已经是百分比了。另请注意，表达式是“100% - idle%”，因此结果是 CPU 使用率（100 - “idle time” = “usage time”）。