在托管 TensorFlow 模型进行预测时，Google 应用引擎和 Google ML 引擎之间的主要区别是什么？答案

【问题标题】：What is the main difference between Google app engine and Google ML engine when hosting tensorflow models for prediction?在托管 TensorFlow 模型进行预测时，Google 应用引擎和 Google ML 引擎之间的主要区别是什么？
【发布时间】：2021-04-08 14:47:24
【问题描述】：

我有一个本地训练的 tensorflow 模型，需要托管在云服务上，以便我可以从我的 Flutter 应用程序中调用它来对输入数据进行预测。

在寻找解决方案时，我发现人们通过使用 ML 引擎（通过 firebase 函数调用模型预测）和 App 引擎（使用 REST API 从托管模型中获取预测）都实现了上述目标

如果两者都达到相同的结果，为什么要有两个服务？一个比另一个快吗？还是更便宜？除了有一个前置应用之外，这两种服务是否相同？

【问题讨论】：

可以分享一下 App Engine 上 Tensorflow Serving 的链接吗？您还可以分享您的模型要求（模型大小、所需 CPU 数量、GPU、批处理或在线服务......）吗？
您好，不知道您指的是什么链接，是应用引擎模型托管的文档吗？至于我的模型，它的大小是 500-700MB，4 核 CPU 就足够了，不需要 GPU，首选在线服务，因为我会从我的应用程序发送预测请求。谢谢

标签： google-app-engine google-cloud-platform google-cloud-functions google-cloud-ml

【解决方案1】：

要使用 Tensorflow Serving 为模型提供服务，您需要... tensorflow serving，要在您的环境中安装的二进制文件。

因此，使用 App Engine 标准，您无法安装任何二进制文件，您只能定义要使用的依赖项。

借助 App Engine Flexible，您可以设置 custom runtime environment 并提供 Dockerfile 来对其进行自定义。这次您无法安装 TensorFlow Serving 并在 App Engine flex 上提供您的模型。

注意：App Engine Standard 缩放为 0，并且当您不处理任何请求时无需付费。 App Engine 灵活扩展到 1，因此，无论是否有流量，您都至少需要为 1 个实例付费。

在 AI Platform 方面，您有 2 types of machine type。旧版MLS1 的行为和定价非常接近 App Engine 标准（缩放到 0，如果创建实例，则至少支付 15 分钟的运行时间，...）但安装了 tensorflow 服务等，您可以用它来提供预测。

但是，MLS1 类型支持最大 500Mb 的型号，它应该不适合您。

N1 类型是 AI PLatform 在线预测服务的新平台（该类型机器无法批量处理）。更多 CPU、GPU、内存、高达 2Gb 的模型……但是，与 App Engine Flexible 一样，平台可扩展到 1，因此即使您不提供流量，您也需要付费。

注意：AI Platform 服务机器针对预测和张量流进行了优化。 App Engine 针对通用目的进行了优化，尤其是网络服务。

我执行了talk about the differences last year

从那时起，我对这些解决方案并不满意。我找到了第三种服务模型的方法，这次是 Cloud Run。我wrote an article with the model already package in the container（更长的容器启动（冷启动）但在请求处理方面更高效）和another one to load the model on each request（更长的处理时间，但可重复用于不同类型的模型）。

在最后一个上，我发布了一个开源解决方案。如果需要，我可以根据您的要求对其进行更新。

最后说明：也许可以在 App Engine Standard 上使用 TensorflowJS 模型和 NodeJS 运行时环境来提供 tensorflow 模型。我从未测试过（我既不是数据科学家也不是 NodeJS 开发人员）

【讨论】：