Tflite Quant 推理比 Intel CPU 上的 TFlite float32 慢答案

【问题标题】：Tflite Quant inference is slower than TFlite float32 on Intel CPUTflite Quant 推理比 Intel CPU 上的 TFlite float32 慢
【发布时间】：2020-10-30 13:17:26
【问题描述】：

我已使用 DEFAULT 优化 (Float32) 设置将网络转换为 TFlite，其推理速度约为 25 fps。当我转换为 TFlite INT8 Quantized 时的同一网络，其推理速度在 INTEL 8 核 Intel Core i9 2.3 GHz 上约为 2 fps。这在 CPU 上是预期的吗？请有人解释一下导致 INT8 推理缓慢的原因。

【问题讨论】：

这能回答你的问题吗？ tflite quantized inference very slow

标签： tensorflow tensorflow2.0 quantization tensorflow-lite

【解决方案1】：

您能否提供模型的更多细节？

量化模型肯定小于float32模型。

对于在移动 CPU 上进行部署，量化模型通常可能更快。但是，英特尔台式机/笔记本电脑 CPU 可能无法保证。

【讨论】：