【发布时间】:2020-10-22 15:49:08
【问题描述】:
我们使用标准的tensorflow/serving docker 容器为多个 TF 模型提供服务。按照文档,我们通过提供“prometheus”配置来启用监控。指标按预期发出。 TFS 确实以区分它所服务的单独模型的方式标记了一些指标,例如,它在模型加载尝试和延迟上显示 model_path:
# TYPE :tensorflow:cc:saved_model:load_attempt_count counter
:tensorflow:cc:saved_model:load_attempt_count{model_path="gs://disco-int-100-mlops/ml-sandbox-101-tagging/servables/models/1598020514",status="success"} 1
:tensorflow:cc:saved_model:load_attempt_count{model_path="gs://ml-sandbox-examples/HousingModel/2020-10-05T10:37:56/1",status="success"} 1
# TYPE :tensorflow:cc:saved_model:load_latency counter
:tensorflow:cc:saved_model:load_latency{model_path="gs://disco-int-100-mlops/ml-sandbox-101-tagging/servables/models/1598020514"} 19274403
:tensorflow:cc:saved_model:load_latency{model_path="gs://ml-sandbox-examples/HousingModel/2020-10-05T10:37:56/1"} 2938076
大多数其他 TFS 指标根本没有任何标签。是否可以提供额外的配置参数,以便我们获得例如为每个服务模型标记的:tensorflow:core:graph_run_time_usecs_histogram_bucket 指标?
【问题讨论】: