张量流量化答案

【问题标题】：Tensorflow quantization张量流量化
【发布时间】：2017-10-10 08:41:49
【问题描述】：

我想使用 Tensorflow 的 transform_graph 工具优化图表。我尝试从MultiNet（以及其他具有类似编码器-解码器架构的人）优化图表。然而，使用 quantize_weights 时优化后的图实际上更慢，使用 quantize_nodes 时甚至更慢。从 Tensorflow 的文档来看，量化时可能没有任何改进，甚至可能更慢。知道下面的图表/软件/硬件是否正常吗？

这是我的系统信息供你参考：

操作系统平台和发行版：Linux Ubuntu 16.04
TensorFlow 安装自：使用 TF 源代码 (CPU) 进行图形转换，使用 binary-python(GPU) 进行推理
TensorFlow 版本：均使用 r1.3
Python 版本：2.7
Bazel 版本：0.6.1
CUDA/cuDNN 版本：8.0/6.0（仅限推理）
GPU 型号和内存：GeForce GTX 1080 Ti

如有必要，我可以发布所有用于重现的脚本。

【问题讨论】：

您能否提供一个示例 sn-p 代码，说明您是如何实际量化图形的？量化后的模型质量是否相同？我有一个冻结图（或保存的模型），我想量化和运行推理，你能给我一些指示

标签： tensorflow tensorflow-gpu

【解决方案1】：

Tensorflow 中的量化似乎只发生在 CPU 上。见：https://github.com/tensorflow/tensorflow/issues/2807

【讨论】：

【解决方案2】：

我在 PC 环境中遇到了同样的问题。我的模型比不量化慢 9 倍。

但是当我将我的量化模型移植到 android 应用程序中时，可以加快速度。

目前似乎只能在 CPU 和 ARM 基础 CPU 上工作，例如 android 手机。

【讨论】：