在 Tensorflow Keras 中加载模型进行推理的最快方法答案

【问题标题】：Fastest way to load_model for inference in Tensorflow Keras在 Tensorflow Keras 中加载模型进行推理的最快方法
【发布时间】：2021-12-26 13:11:30
【问题描述】：

我正在尝试从磁盘快速加载模型以在 REST API 中进行预测。 tf.keras.models.load_model 方法需要大约 1 秒的时间来加载，所以对于我想要做的事情来说太慢了。编译标志设置为 false。

仅在 Tensorflow/Keras 中从磁盘加载模型以进行推理的最快方法是什么？

有没有办法在请求之间将模型保存在内存中？

我尝试过缓存，但 pickle 反序列化非常昂贵，并且增加了约 1.2 秒。我怀疑内置的 Keras 加载模型也会进行某种序列化，这似乎是杀手锏。

PD：我知道 TFX，但感觉有点矫枉过正，因为我已经设置了 REST API。预测速度很快，只需在请求之间快速从磁盘加载模型或在内存中持久化。

提前致谢，琼

【问题讨论】：

【解决方案1】：

别了！刚才我有一点脑子放屁的时候，所以如果你也有，这里有一个解决方案。

只需在启动服务器时加载模型，以便所有请求都可以使用模型。

【讨论】：