预备知识:
感受野定义:卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小,如下图所示。
-
空洞卷积背景:起源于图像分割网络。
1.1 传统的做法:图像输入到CNN(典型的网络比如FCN[3])中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预测是pixel-wise的输出,所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测,之前的pooling操作使得每个pixel预测都能看到较大感受野信息。
1.2 图像分割FCN的关键:一个是pooling减小图像尺寸增大感受野,另一个是upsampling扩大图像尺寸。
1.3 传统做法的弊端:在先减小再增大尺寸的过程中,肯定有一些信息损失掉了。那么能不能设计一种新的操作,不通过pooling也能有较大的感受野看到更多的信息呢?答案就是dilated conv(空洞卷积)。 - **空洞卷积的定义:**在图像中,卷积核的大小不变,但是在图像中通过增加间隔,可以扩大图像的感受野范围。当stride = 1时,间隔为0,也就成为普通的卷积。如 下图所示:
- 卷积核的意义:dilated的好处是不做pooling损失信息的情况下,加大了感受野,让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音文本需要较长的sequence信息依赖的问题中,都能很好的应用dilated conv,比如图像分割[3]、语音合成WaveNet[2]、机器翻译ByteNet[1]中。简单贴下ByteNet和WaveNet用到的dilated conv结构,可以更形象的了解dilated conv本身。
-
空洞卷积带来的问题:
(1)信息不连续
(2)不能同时处理大小物体 -
如何使用空洞卷积:
(1)HDC
(2)ASPP(基于洞的空间金字塔)
链接:https://www.zhihu.com/question/54149221/answer/192025860(空洞卷积)
https://www.cnblogs.com/objectDetect/p/5947169.html(感受野)