SageMaker Neo 使用哪些技术进行模型优化答案

【问题标题】：Which techniques are used by SageMaker Neo for model optimizationsSageMaker Neo 使用哪些技术进行模型优化
【发布时间】：2022-09-23 04:50:01
【问题描述】：

SageMaker Neo（SageMaker 编译作业）是否使用任何技术进行模型优化？是否使用了任何压缩技术（蒸馏、量化等）来减小模型大小？

我在这里（https://docs.aws.amazon.com/sagemaker/latest/dg/neo.html）找到了一些关于量化的描述，但不清楚如何使用它。

非常感谢您的任何见解。

【解决方案1】：

Neo 正在使用编译优化推理，这与压缩不同且通常正交

汇编通过专门化预测应用程序使推理更快更轻松，特别是：（1）改变模型运行的环境，特别是用最少的必要数学库替换训练框架，（2）优化模型图以进行预测 - only 并将可能的运算符组合在一起，（3）专门化运行时以最好地使用给定目标机器上可用的特定硬件和指令。编译不应该改变模型数学，因此不会改变它在磁盘上的占用空间
压缩通过删除模型权重或使它们更小（量化）来加快推理速度。可以通过修剪（删除不会影响太多结果的权重或蒸馏（训练小模型以模仿大模型）来移除权重。

在撰写本文时，SageMaker Neo 是一项托管编译服务。话虽如此，编译和压缩可以结合使用，您可以在将网络提供给 Neo 之前修剪或提取网络。

SageMaker Neo 涵盖了大量硬件目标和模型架构，因此利用了众多后端和优化。 Neo 内部结构在许多地方都有公开记录：

根据this blog，Neo 使用Treelite 进行树模型优化（Treelite: toolbox for decision tree deployment，Cho et Li）
根据其landing page，Neo 也使用Apache TVM。 TVM 是领先的开源编译器，由Tianqi Chen 和DMLC 社区（他们也是XGBoost 和MXNet 的共同作者）开发。 TVM 技巧在TVM: An Automated End-to-End Optimizing Compiler for Deep Learning 中有大量记录（Chen 等人）
根据this blog 的说法，Neo 有时也会利用NVIDIA TensorRT，这是 NVIDIA 的官方推理优化堆栈
Neo 还使用了一些亚马逊开发的优化：
- A Unified Optimization Approach for CNN Model Inference on Integrated GPUs（王等人）：“我们的工作已经部署在 Amazon SageMaker Neo 服务中”
- Optimizing CNN Model Inference on CPUs（刘等人）“NeoCPU 用于 Amazon SageMaker Neo 服务”

【讨论】：