M2Det的学习过程

不全，待补充

M2Det的学习过程

分析解释这个框图：

M2Det主要是有三部分组成，主干网络、MLFPN(muli-level 的FPN、以及预测层。

其中主干网络是用两个尺度进行特征提取。将这两个尺度的特征合并输入到MLFPN中

MLFPN则由三部分组成，FFM、TUM、SFAM。

FFMv1是对主干网中提取出来的内容进行合并，得到base feature。

FFMv2是用来整合TUM中最后一层的特征和basefeature整合在一块送入下一个TUM中。

在base feature的基础上做TUM，这里解释啥是TUM？

M2Det的学习过程

编码器是一系列的步长为2，卷积核为3*3的Conv，解码器将这些output作为生成feature map的参考。在解码器分支上采样和element-wise后，添加1x1卷积层，以增强学习能力，并保持特征的平滑性

每个TUM结构中的所有输出都形成当前level的多尺度特性。从整体上看，堆叠的TUMs输出形成多层次的多尺度特征，而前面的TUM主要提供浅层特征，中间的TUM提供中层特征，后面的TUM提供深层特征。

看M2Det的图，感觉TUM是把feature map变小了之后又变大了，但是论文里面的解释我只看到：把feature map进行多次卷积然后得到了多个scale 的feature map，没看出来有放大的过程。不明白是怎么回事……

把在TUM中得到的多种特征按照不同的scale进行contact，得到尺度丰富的feature map，完了你就可以去做分类和检测了。

但细节上是把SFAM分成两部分了，第一部分是把相同的尺度进行连接。第二部分做了智能处理，用channel-wise模块，鼓励特性将注意力集中较为重要的通道上。使用SENet模型。