1 摘要
本文基于ReNet提出ReSeg网络,ReSeg网络的特征提取阶段(编码器阶段)采用的是预训练好的CNN网络结构,而在恢复图像尺寸的时候(解码器阶段,也就是上采样阶段)采用了RNN结构,RNN结构部分是基于ReNet的,ReNet是基于RNN的图像分类网络。ReSeg结构处理语义分割任务非常灵活、高效,引入的ReNet模块能够更好地整合上下文信息,达到很好的效果。ReSeg结构在Weizmann Horse数据集、Oxford Flower数据集、和CamVid数据集均达到最好的效果。有关ReNet网络的介绍可以参考我的另一篇文章:
论文笔记:ReNet: A Recurrent Neural Network Based Alternative to Convolutional Networks
2 亮点
2.1 ReNet结构改进
ReNet结构是如下图模样,注意ReNet结构图中的各个16x16,8x8,4x4等模块应该画成不同大小的,这里画成了同一尺寸。
而下图则是ReSeg的解码器阶段的网络结构,可见跟上图的ReNet相差无几。就是在ReSeg中对ReNet改进使其用于语义分割任务,将后面两层全连接层改成上采样层(这里使用的上采样为反卷积)+卷积层,最后输入结果。
2.2 ReSeg整体结构
ReSeg整体由两部分组成:特征提取阶段使用的是预训练好的VGG16结构得到特征图,解码器阶段使用的是ReNet结构,通过ReNet的BRNN(双向RNN)联系上下文信息。
(图片来自于:【图像分割模型】用BRNN做分割—ReSeg)
3 效果
上图为ReSeg分别在Weizmann Horses数据集和Oxford Flowers数据集上的表现效果。
上图为ReSeg和各个网络的效果对比。
4 结论
这篇文章通过将用于图像分类的网络ReNet改进然后用于语义分割中,RNN加入语义分割确实是一个新颖的想法,希望能够探索和改进更多RNN在语义分割方面的应用。
5 参考资料
(1)ReSeg: A Recurrent Neural Network-based Model for Semantic Segmentation
(2)【图像分割模型】用BRNN做分割—ReSeg