图像分割网络之空洞卷积理解

预备知识：
感受野定义：卷积神经网络每一层输出的特征图（feature map）上的像素点在原始图像上映射的区域大小，如下图所示。
图像分割网络之空洞卷积理解

空洞卷积背景：起源于图像分割网络。
1.1 传统的做法：图像输入到CNN（典型的网络比如FCN[3]）中，FCN先像传统的CNN那样对图像做卷积再pooling，降低图像尺寸的同时增大感受野，但是由于图像分割预测是pixel-wise的输出，所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测，之前的pooling操作使得每个pixel预测都能看到较大感受野信息。
1.2 图像分割FCN的关键：一个是pooling减小图像尺寸增大感受野，另一个是upsampling扩大图像尺寸。
1.3 传统做法的弊端：在先减小再增大尺寸的过程中，肯定有一些信息损失掉了。那么能不能设计一种新的操作，不通过pooling也能有较大的感受野看到更多的信息呢？答案就是dilated conv（空洞卷积）。
**空洞卷积的定义：**在图像中，卷积核的大小不变，但是在图像中通过增加间隔，可以扩大图像的感受野范围。当stride = 1时，间隔为0，也就成为普通的卷积。如下图所示：
卷积核的意义：dilated的好处是不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音文本需要较长的sequence信息依赖的问题中，都能很好的应用dilated conv，比如图像分割[3]、语音合成WaveNet[2]、机器翻译ByteNet[1]中。简单贴下ByteNet和WaveNet用到的dilated conv结构，可以更形象的了解dilated conv本身。
空洞卷积带来的问题：
（1）信息不连续
（2）不能同时处理大小物体
如何使用空洞卷积：
（1）HDC
（2）ASPP（基于洞的空间金字塔）

链接：https://www.zhihu.com/question/54149221/answer/192025860（空洞卷积）
https://www.cnblogs.com/objectDetect/p/5947169.html（感受野）