（Faster R-CNN）ROI 池化层不可区分 w.r.t 框坐标

【问题标题】：(Faster R-CNN) ROI Pooling layer is not differentiable w.r.t the box coordinates（Faster R-CNN）ROI 池化层不可区分 w.r.t 框坐标
【发布时间】：2022-04-17 18:06:06
【问题描述】：

该论文报告说“拥有一个可根据框坐标进行微分的 RoI 池化层是一个非常重要的问题”，并提到了“ROI Warping”（将特征裁剪并调整为固定形状），使其完全可微分 w.r.t框坐标。

我不明白为什么 RoI 池化层不可微而 ROI Warping 是？

【问题讨论】：

标签： object-detection conv-neural-network faster-rcnn max-pooling

【解决方案1】：

RoI pooling 的输入是参考框的坐标，这些坐标是离散的整数，RoI pooling 的输入也是 Region Proposal Network 的输出，但是 Region Proposal Network 的输出是连续的。所以离散输入和连续输出之间存在转换，这使得 RoI 无法微分。

【讨论】：