您可以使用cadvisor,它让容器用户了解他们正在运行的容器的资源使用情况和性能特征。
关于设置 Prometheus 以监控 Docker 的 very good article 正在使用此架构:
简单地说,这个想法是使用 cAdvisor 收集有关容器的信息,并将它们放入 Prometheus 数据库中。 Grafana 将查询 Prometheus 数据库并渲染监控图表/值。
要从 cAdvisor 向 Prometheus 收集数据,您必须编辑 configuration file (prometheus.yml):
scrape_configs:
- job_name: 'cadvisor'
scrape_interval: 5s
static_configs:
- targets: ['cadvisor:8080']
当您在 Prometheus 中有一些数据时,您必须使用 Grafana 来查看它。可以导入 Grafana 的监控 json 查询的(简短)示例如下:
获取用户 CPU 的百分比:
"targets": [
{
"expr": "sum(rate(container_cpu_user_seconds_total{image!=\"\"}[1m])) / count(node_cpu{mode=\"system\"}) * 100",
"interval": "10s",
"intervalFactor": 1,
"legendFormat": "",
"refId": "A",
"step": 10
}
]
获取已用 RAM 的百分比:
"targets": [
{
"expr": "(sum(node_memory_MemTotal) - sum(node_memory_MemFree+node_memory_Buffers+node_memory_Cached) ) / sum(node_memory_MemTotal) * 100",
"interval": "10s",
"intervalFactor": 2,
"legendFormat": "",
"refId": "A",
"step": 20
}
]
对于完整的json数据(这里太长无法发布),您可以克隆此存储库:
git clone https://github.com/stefanprodan/dockprom
并尝试导入这个Grafana json。
我目前正在使用此架构来监控生产中的 docker swarm mode 集群,这是您可以在 github 存储库中找到的监控输出。