【问题标题】:Labels on Prometheus metrics when serving multiple models with Tensorflow Serving使用 Tensorflow Serving 为多个模型提供服务时,Prometheus 指标上的标签
【发布时间】:2020-10-22 15:49:08
【问题描述】:

我们使用标准的tensorflow/serving docker 容器为多个 TF 模型提供服务。按照文档,我们通过提供“prometheus”配置来启用监控。指标按预期发出。 TFS 确实以区分它所服务的单独模型的方式标记了一些指标,例如,它在模型加载尝试和延迟上显示 model_path

# TYPE :tensorflow:cc:saved_model:load_attempt_count counter
:tensorflow:cc:saved_model:load_attempt_count{model_path="gs://disco-int-100-mlops/ml-sandbox-101-tagging/servables/models/1598020514",status="success"} 1
:tensorflow:cc:saved_model:load_attempt_count{model_path="gs://ml-sandbox-examples/HousingModel/2020-10-05T10:37:56/1",status="success"} 1
# TYPE :tensorflow:cc:saved_model:load_latency counter
:tensorflow:cc:saved_model:load_latency{model_path="gs://disco-int-100-mlops/ml-sandbox-101-tagging/servables/models/1598020514"} 19274403
:tensorflow:cc:saved_model:load_latency{model_path="gs://ml-sandbox-examples/HousingModel/2020-10-05T10:37:56/1"} 2938076

大多数其他 TFS 指标根本没有任何标签。是否可以提供额外的配置参数,以便我们获得例如为每个服务模型标记的:tensorflow:core:graph_run_time_usecs_histogram_bucket 指标?

【问题讨论】:

    标签: tensorflow-serving


    【解决方案1】:

    回答我自己的问题,简单的回答是“不,Prometheus 指标配置没有其他配置参数”。生成指标端点输出的代码在这里: https://github.com/tensorflow/serving/blob/master/tensorflow_serving/util/prometheus_exporter.cc

    看起来是一个为 TFS 做出贡献的机会...

    【讨论】:

      猜你喜欢
      • 2019-04-21
      • 2016-09-11
      • 2017-09-24
      • 2019-03-17
      • 2021-05-19
      • 1970-01-01
      • 2018-09-29
      • 2018-09-12
      • 1970-01-01
      相关资源
      最近更新 更多