【问题标题】:count k8s cluster cpu/memory usage with prometheus使用 prometheus 计算 k8s 集群 cpu/内存使用情况
【发布时间】:2019-07-18 21:22:51
【问题描述】:

我想用 prometheus 统计 k8s 集群 cpu/内存使用情况(不是 k8s pod 使用情况),以便在 grafana 中显示。

我使用sum (container_memory_usage_bytes{id="/"})获取k8s集群已用内存,topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance))获取整个k8s集群内存,但是由于topk函数返回的不是值而是向量,所以它们不能分割。

我该怎么做?

【问题讨论】:

    标签: kubernetes grafana prometheus


    【解决方案1】:

    我已经通过 gcloud 默认应用程序在 google Cloud 上安装了 Prometheus。仪表板随安装自动部署。以下查询用于集群的内存和 CPU 使用情况:

    按命名空间划分的 CPU 使用率:

    sum(irate(container_cpu_usage_seconds_total[1m])) by (namespace)
    

    按命名空间划分的内存使用情况(无缓存):

    sum(container_memory_rss) by (namespace)
    

    CPU 请求承诺:

    sum(kube_pod_container_resource_requests_cpu_cores) / sum(node:node_num_cpu:sum)
    

    内存请求承诺:

    sum(kube_pod_container_resource_requests_memory_bytes) / sum(node_memory_MemTotal)
    

    【讨论】:

    • 我不能使用node_memory_MemTotal,因为 1)我有一些节点,一些在 k8s 集群中,一些没有,所以我不能使用 2)它仍然不是 k8s 集群使用,这意味着主机级别总计
    【解决方案2】:

    我的主要问题是topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance)) 不能返回值,但现在我发现使用sum() 来隐藏它可以工作,整个查询如下:

    sum(sum (container_memory_usage_bytes{id="/"})by (instance))/sum(topk(1, sum(kube_node_status_capacity_memory_bytes) by (instance)))*100
    

    【讨论】:

    • 使用 sum(avg(kube_node_status_allocatable_memory_bytes) by (node)) 可能会更好地获得 k8s 使用的整个内存资源。
    猜你喜欢
    • 2011-01-17
    • 1970-01-01
    • 2021-03-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-05-09
    • 2019-08-04
    相关资源
    最近更新 更多