【发布时间】:2021-04-12 04:07:43
【问题描述】:
在这里,我有一个训练深度神经网络(图像分类 n/w)的场景,比如 8 层。
训练后,我将模型分成 4 个部分,每个模型部分有 2 层。
现在我想对我的测试图像进行推断,从技术上讲,通过的图像将穿过每个块以产生最终输出,这将是串行处理。
即
total_time = time_taken_by_model_1 + time_taken_by_model_2 + time_taken_by_model_3 + time_taken_by_model_4
如下图所示的一些东西
所以我的问题是,代替这种串行计算,我可以并行化推理计算,使得所花费的时间应该少于上述 total_time 的序列化推理(至少是上述情况的总时间的一半) 任何有关这些问题的链接/论文/博客也会有所帮助
编辑:所有模型部件将在不同的设备上(树莓派)
【问题讨论】:
标签: tensorflow deep-learning parallel-processing neural-network pytorch