Mask R-CNN论文笔记

1.掩膜分支对每个RoI的输出维度为K*m*m，即，对每个分类（共k个）都生成一个是该类的概率的heatmap。

2.此处的Loss为L=Lcls+Lbbox+Lmask ，Lcls Lbbox定义方式与faster rcnn一致。

3.This pixel-to-pixel behavior requires our RoI features,which themselves are small feature maps。

RoI为什么本身也是小feature？

因为RoI层是接在CNN卷积层后的，直接在feature map上做的预测。在此时，RPN层预测的bbox参数，是相对于feature map的位置。

为什么需要ROI pooling还有ROIAlign,就是因为要把相对于feature层的bbox坐标，还原到原图像上，这是一个类似于decode的过程。

4.这里的anchor box和predicted box 有什么区别？（此处是Faster Rcnn论文里的）

Mask R-CNN论文笔记

6.最后mask的阶段，28*28*256 变成28*28*80（类别数目）。参考下面的对应的代码。

Mask R-CNN论文笔记