OpenVino 性能 - 神经棒与 CPU答案

【问题标题】：OpenVino Performance - Neural Stick vs. CPUOpenVino 性能 - 神经棒与 CPU
【发布时间】：2021-12-10 13:19:12
【问题描述】：

我发现我的台式机 CPU 与我在 Neural Compute Stick 2 VPU 上运行时的推理性能存在显着差异 - 在 VPU 上慢了近 500 毫秒。这是花费时间最多且差异最大的一行：

result = exec_net.infer( inputs={input_layer_ir: blob} )

我的台式机是我的游戏机，有一个非常快的 Intel CPU。也就是说，这是 VPU 和 CPU 之间预期的数量级差异吗？

CPU 速度非常快，例如 0.07 秒，而 VPU 约为 0.5。

这是开放动物园样本中的道路分割模型。

【问题讨论】：

哪个更快？两者的实际速度是多少？如果我们不知道它是否超过 10 秒或超过 1 秒或什么，我们不知道 500 毫秒的速度差异有多大。什么大小的数据？台式机CPU的实际型号是什么？核心数量范围很大。
什么样的神经网络？什么样的 CPU？
使用 GPU/加速器的人总是忘记会有延迟和设置成本。
您不包括从 PC 到 Neural Stick 的数据移动时间，对吧？

【解决方案1】：

英特尔® 神经计算棒 2 (NCS 2) 是一种 USB 棒，可让您访问神经网络功能，而无需大型、昂贵的硬件。它是一种即插即用设备，因此您可以立即开始制作原型。

NCS 2 的性能与 TFLOPS 意义上的知名 CPU 或 GPU 相比，仍然低了一百倍。这种行为是意料之中的，所以不要依赖它作为外部设备来替换 CPU 插件。

【讨论】：

如果它的吞吐量比使用 CPU 模拟神经网络低约 100 倍，那有什么意义呢？有没有什么方法可以比 CPU 更有效地使用其有限的 TFLOPS 来处理除了这个问题中的工作负载之外的一些工作负载？
NCS 2 旨在成为低成本、低功耗的移动项目的一部分，例如智能家居监控系统。
好的，所以对于插入 Raspberry Pi 之类的事情，而不是在桌面上进行原型设计以在比桌面更强大的硬件上运行的东西上运行。考虑到外形尺寸（只是没有大量表面积的被动冷却），这是有道理的。您回答中的措辞并没有纠正我从问题中得到的误解。您的意思是通过故意仅使用计算棒而不是台式机的全部功能来进行原型设计，以查看您的移动/嵌入式用例是否能满足其性能目标。有道理。谢谢。