1.掩膜分支对每个RoI的输出维度为K*m*m,即,对每个分类(共k个)都生成一个是该类的概率的heatmap。 

2.此处的Loss为L=Lcls+Lbbox+Lmask  ,Lcls    Lbbox定义方式与faster rcnn一致。

3.This pixel-to-pixel behavior requires our RoI features,which themselves are small feature maps。

RoI为什么本身也是小feature?

     因为RoI层是接在CNN卷积层后的,直接在feature map上做的预测。在此时,RPN层预测的bbox参数,是相对于feature map的位置。

为什么需要ROI pooling还有ROIAlign,就是因为要把相对于feature层的bbox坐标,还原到原图像上,这是一个类似于decode的过程。

4.这里的anchor box和predicted box 有什么区别?(此处是Faster Rcnn论文里的)

     

Mask R-CNN论文笔记

6.最后mask的阶段,28*28*256 变成28*28*80(类别数目)。参考下面的对应的代码。

Mask R-CNN论文笔记

Mask R-CNN论文笔记


相关文章:

  • 2021-09-22
  • 2022-01-22
  • 2021-11-22
  • 2021-07-18
  • 2021-08-10
  • 2021-06-04
  • 2022-01-09
猜你喜欢
  • 2021-08-13
  • 2021-07-25
  • 2021-08-02
  • 2021-06-01
相关资源
相似解决方案