文章信息
论文地址
前言
基于卷积神经网络的语义分割模型已经取得了很不错的效果,但是和绝大多数深度学习方法一样,深度语义分割模型同样依赖大量高质量的标注数据,而图像分割的标注成本非常高。为了降低标注成本,常用一些图像引擎生成自带标注的合成图像用来训练分割模型。但是,用合成图像训练的模型直接用于真实图像时,会有domain shift带来的效果下降问题,因此需要有域自适应方法和分割方法的结合。
之前工作存在的问题
现实中的目标域数据通常具有不同的场景分布,这些分布差异是由运动物体、天气条件等多种因素造成的,因此目标域数据之间本身就存在较大的差异(intra-domain gap),而之前的工作只考虑源域数据和目标域数据之间的差异(inter-domain gap)没有考虑目标域数据自身的分布差距,即域内差距。
文章主要贡献
提出一种分两步的域自适应方法,分别来最小化intra-domain gap和inter-domain gap。具体分为三个部分:
1)一个域自适应模块,用于对齐源域和目标域之间的inter-domain gap。
2)一个entropy-based ranking system,用于将目标域数据分为易分割和难分割。
3)一个域自适应模块,用于对齐目标域数据中易分割和难分割数据之间的intra-domain gap。
方法
整体结构
语义分割
语义分割本质相当于对输入图像的每个像素点进行分类,对有标签的源域数据进行训练的Loss为:
其中P为语义分割网络的输出,(h, w,c)分别为高,宽和类别数,Y为ground Truth。
Inter-domain Adaptation
基于之前工作,entropy map定义为:
域分类器D用于判别entropy map的域标签,Loss为:
而分割网络希望输出的entropy map能够尽可能迷惑D,二者形成对抗训练模式。
Entropy-based Ranking system
由于存在不同的天气条件、物体的移动、光照和阴影等因素的影响,从真实世界收集的目标域图像自身也存在有不同的分布,即intra-domain gap。如下图,两张图像同属于目标域数据,使用同一分割模型后,有的图像是很干净的,有的却很嘈杂
文章使用Entropy-based Ranking system来将target数据集划分为easy和hard两部分,具体对于目标域的每一张图像,使用域间对齐方式训练好的分割网络Ginter,得到目标域每张图像的entropy map,进而可以计算每张图像的rank评分,公式如下:
进一步,引入一个超参数λ,这里并不是将λ作为划分的阈值,而是作为一个比率。文章解释的原因是阈值依赖于特定的数据集,而比率对其他数据集同样具有很强的泛化性。λ的计算方式为:
分子是目标域中easy的数量,分母为目标域数据集的数量,根据实验可以取得最佳λ:
Intra-domain Adaptation
对目标域数据划分为easy和hard两部分之后,就认为这两部分数据属于不同的子域,可以进行域对齐操作。但是由于这两部分数据都没有标注,所以首先对easy数据生成伪标签。
就是使用域间对齐训练好的分割网络Ginter ,获取easy的伪标签,然后利用伪标签训练域内分割网络Gintra,具体loss如下:
而后就可以借助域分类器Dintra进行域内对齐操作:
全局损失函数和优化目标
训练过程
上述过程无法在一个步骤内完成训练,所以需要分布训练
1.使用源域数据和目标域数据训练Ginter 和 Dinter。
2.使用Ginter 生成rank信息,对目标域数据划分为easy和hard,并生成目标域中easy的伪标签。
3.使用有伪标签的easy和无标签的hard训练Gintra 和 Dintra。