预训练的模型:https://goo.gl/DQMeun

在图像分割编码网络和解码网络,分别使用了两种方法改进,提升分割效果。在解码阶段,使用致密的上采样卷积(DUC)生成像素级预测,DUC可以捕获双线性插值上采用损失的信息。在编码阶段,使用混合膨胀卷积(HDC)代替标准的膨胀卷积,解决“gridding”问题。

  1. 致密的上采样卷积
    目的是生成与输入图像大小相同的分割标记图,论文设计的带有DUC层的ResNet-101如下图所示:
    图像分割“Understanding Convolution for Semantic Segmentation”
    DUC输入时h×w×c的特征图,输出特征图维度为h×w×(r2×L),输出特征图经过softmax层映射到H×W×L,之后使用元素级argmax操作得到最终的特征图。DUC的核心idea是,将标记图划分为相同的子块,每个子块与输入特征图有相同的尺寸。所有的块经过r2次堆叠获得整个标记图。这个转变使得卷积可以在输入特征图和输出标记图之间直接使用,不需要反卷积方法中额外的参数。
  2. 混合膨胀卷积
    膨胀卷积有“gridding”问题 ,膨胀卷积在卷积核中加入了0,当膨胀率为2时,大约会损失75%的信息,当膨胀率变大时,局部信息会损失,大距离跨度导致信息不相干或互相干扰。HDC对不同层使用不同的膨胀率,膨胀率分配服从锯齿波样分布,一定数量的层聚合在一起形成波的上升沿,膨胀率逐渐上升。这样做可以从更多的像素获取信息,如下图的对比:
    图像分割“Understanding Convolution for Semantic Segmentation”

实验结果
原始ReseNet-101中7×7卷积层使用两个3×3卷积替换,在CityScapes数据集上mIOU为80.1%。
图像分割“Understanding Convolution for Semantic Segmentation”

相关文章: