使用 Google Cloud AI Platform 和 GPU 运行自定义预测答案

【问题标题】：Running Custom Prediction with Google Cloud AI Platform and GPU使用 Google Cloud AI Platform 和 GPU 运行自定义预测
【发布时间】：2019-11-14 06:23:07
【问题描述】：

我正在尝试将 MaskRCNN 模型部署到 GCP AI 平台。默认的在线预测对我不起作用，因为我的输入大小大于允许的限制。所以，我决定继续使用自定义预测路线。

关于自定义预测，我尝试使用比默认提供的更大的机器类型，因为我的模型很大并且需要比默认模型 (mls1-c1-m2) 提供的更多的内存。

我想用 n1-standard-4 机器类型部署模型，下面是我正在运行的命令：

gcloud beta ai-platform versions create $VERSION_NAME   --model $MODEL_NAME   --runtime-version 1.14   --python-version 3.5   --origin $MODEL_DIR   --package-uris gs://pred_02/staging/my_custom_code-0.1.tar.gz --framework tensorflow  --prediction-class predictor.MyPredictor --machine-type n1-standard-4

但这会引发错误：

ERROR: (gcloud.beta.ai-platform.versions.create) FAILED_PRECONDITION: Machine type n1-standard-4 only support FRAMEWORK_TENSORFLOW

我也尝试了 --framework arg 的不同变体，但它们都抛出了一些类似的错误。那么，为什么会抛出这个错误呢？

如果可行，那么我的想法是将此机器类型与 k80 加速器一起使用。这将是我的第二个问题？我可以使用加速器运行它以进行自定义预测吗？

【问题讨论】：

您的模型是符合 1.14 版的 Tensorflow 模型吗？

标签： google-cloud-platform gcp-ai-platform-notebook gcp-ai-platform-training

【解决方案1】：

--prediction-class 尚不适用于 n1 机器类型。在那之前你可以使用mls1-c4-m2 机器。检查机器类型 here 以了解每种机器类型的限制条件。

自定义预测例程仍在不断发展（测试版）。您应该检查更新here。

【讨论】：

所以，我的模型使用的内存比 mls1-c4-m2 提供的更多，所以，我不得不使用 alpha 版本的机器类型 "mls1-c4-m4" 。我能够得到结果，但它非常慢。
仍然只能加载最大 500MB 的模型。