【发布时间】:2022-01-21 20:30:33
【问题描述】:
目标:使用此Notebook 对 albert-base-v2 模型执行量化。
内核:conda_pytorch_p36.
第 1.2 节和第 2.2 节中的输出表明:
- 将原版 BERT 从 PyTorch 转换为 ONNX 保持相同大小,
417.6 MB。 -
量化模型比普通 BERT、PyTorch
173.0 MB和 ONNX104.8 MB更小。
但是,在运行 ALBert 时:
- PyTorch 和 ONNX 模型大小不同。
- 量化模型尺寸比普通模型大。
我认为这就是与普通 ALBert 相比,ALBert 的两种 Quantization 方法的模型性能较差的原因。
PyTorch:
Size (MB): 44.58906650543213
Size (MB): 22.373255729675293
ONNX:
ONNX full precision model size (MB): 341.64233207702637
ONNX quantized model size (MB): 85.53886985778809
为什么将 ALBert 从 PyTorch 导出到 ONNX 会增加模型大小,而不是 BERT?
如果还有什么我可以添加到帖子中的,请告诉我。
【问题讨论】:
标签: python pytorch onnx quantization onnxruntime