「Computer Vision」Note on MTCNN

Sina Weibo：小锋子Shawn
Tencent E-mail：[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/81024957

如下图1所示，为MTCNN[1]的测试过程。主要涉及1次resize处理，3个卷积网络计算，3次非最大值抑制处理、包围盒矫正。
(1) resize处理主要对图像进行金字塔缩小，为了对抗scale变异性，其实还可以像FPN[2]那样采用特征金字塔处理。
(2) 3个卷积网络分别是proposal network (P-Net)、refine network (R-Net)和output network (O-Net)，级联思想，由粗到精地回归包围盒，并输出特征点。
(3) 上述3个卷积网络经过计算之后，紧接着进行NMS和包围盒矫正（利用offsets）。
「Computer Vision」Note on MTCNN

图 1

如图2所示，为MTCNN中3个网络的具体结构，都是非常简单的。因此MTCNN不但参数少，并且速度非常快，是最近1-2年中性能较好的人脸检测器。
「Computer Vision」Note on MTCNN

图 2

训练阶段比较tricky，可以参考目前的重现训练。

[1] Joint Face Detection and Alignment Using Multi-task Cascaded Convolutional Networks SPL 2016 [paper] [inference code based Matlab/Caffe] [inference code based Pytorch] [inference code based Tensorflow]
[2] Feature Pyramid Networks for Object Detection CVPR 2017 [paper]