近期在学习See Better Before Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual Classification的pytorch版本代码地址
本文对论文要点进行解读,由于本人是小白,理解错误的地方请批评指正。

1.论文的亮点

  • 双线性注意力池化机制(BAP)
  • 类center loss的注意力监督机制
  • 基于注意力的数据增强策略 attention crop attention drop

2.重要模块

  • 1.BAP(Bilinear Attention Pooling)
    骨干网(代码默认使用Inception-V3)生成了F和A,即是feature maps和attention maps,其中attention map指向物体的特定部位,如聚焦鸟类的喙,脚丫,翅膀等特征。F和A的element-wise乘积产生Part Feature Maps(AKF)。而后并通过卷积(GAP)或者池化(GMP)来提取局部特征,即为:
    WS_DAN论文要点理解
    之后concat连接得到Feature Matrix
    WS_DAN论文要点理解

BAP过程如下:

WS_DAN论文要点理解

  • 2.Attention Regularization
    为使得相同物体上同一部位的特征尽可能相似, 如某attention map Ak致力于描述海鸥的喙,WS-DAN采用类center loss来监督注意力的学习过程. loss函数定义如下:
    WS_DAN论文要点理解
    其中ck初始化为0,按照以下公式更新其值:
    WS_DAN论文要点理解
  • 3 Attention-guided Data Augmentation

! crop mask
依照Ak权重大小为概率,随机选出一张attention map Ak指导数据crop,Ak做normalize处理:
WS_DAN论文要点理解
通过Ak*可获得crop mask.
! attention crop
WS_DAN论文要点理解找出一最小的bounding box来覆盖Ck(i,j)中所有的1, 通过bounding box来crop训练数据,并放大至原图大小, 细节信息会更清晰. 该过程称为attention crop.

! attention drop
WS_DAN论文要点理解
如果当Dk(i,j)小于阈值时为1, 否则为0, 该过程称为attention drop. Attention drop操作可缓解多个attention map关注物体同一部位的问题.

  • 4 Object Localization and Refinement
    前面介绍的Attention-guided Data Augmentation可以更准确地预测物体位置. 在测试阶段,backbone模型输出粗粒度识别结果以及attention maps. 在此基础上, WS-DAN可以预测整个物体的位置并且可预测细粒度识别结果. 在测试阶段使用的attention map是 M个attention map的平均值
    WS_DAN论文要点理解

3.训练过程

训练过程:
(a) 弱监督注意力学习,通过弱监督注意力学习对每一张训练图片生成一个注意力图(attention maps)来表征对象对显著特征部分。
(b) 注意力引导数据增强,随机选择一张注意力图,通过attention crop和attention drop的方式去增强这张图片,最后原图和增强对数据都会被作为输入数据进行训练。
WS_DAN论文要点理解
(c)loss函数
WS_DAN论文要点理解

4.测试过程

  • 图解检测过程
    WS_DAN论文要点理解
    (a)首先原图通过弱监督学习输出目标的类别概率和注意力图;
    (b)然后通过目标定位和精炼定位目标的位置;
    ©最后将前两个阶段的数据结合。
  • 检测过程伪代码:
    WS_DAN论文要点理解* 检测结果
    WS_DAN论文要点理解

相关文章:

  • 2021-09-06
  • 2021-11-03
  • 2021-06-29
  • 2021-04-23
  • 2021-06-21
  • 2021-05-09
  • 2021-05-05
  • 2021-05-30
猜你喜欢
  • 2021-04-13
  • 2021-04-30
  • 2021-06-08
  • 2021-12-30
  • 2021-07-27
  • 2021-07-27
  • 2021-04-13
相关资源
相似解决方案