MASK-RCNN是一个多用途的网络,可以用来做目标检测,实例分割或者人体姿态识别.主要结构如下.

MASK-RCNN(1)

简单的说,就是首先用Faster-RCNN获得ROI,再进行ROI Align,然后输出ROI的分类,同时输出分割掩码.

1. Faster-RCNN和ROI Align

Faster-RCNN是一个两阶段检测器,第一阶段(即RPN)提出候选ROI,再过滤掉一部分,第二阶段对剩下的ROI进行分类.

MASK-RCNN对Faster-RCNN做了修改,获得ROI以后并没有马上输出分类,而是进行了ROI Align.ROI Align通过双线性插值获得准确的特征图,而不是四舍五入以后的特征图.例如,如果输出的ROI坐标是[x/16],其中16是特征图步幅,[⋅]表示四舍五入,这样获得的特征图和ROI的坐标并没有完全对端,虽然对分类影响不大,但是对掩码的输出影响较大.ROI Align通过双线性插值获得准确的特征图,如下图所示.

MASK-RCNN(1)

相关文章:

  • 2021-07-23
  • 2021-04-04
  • 2021-07-07
  • 2021-04-19
  • 2021-12-18
  • 2021-09-15
  • 2021-08-17
  • 2021-11-09
猜你喜欢
  • 2021-09-09
  • 2021-12-14
  • 2021-08-25
  • 2021-08-15
  • 2022-12-23
相关资源
相似解决方案