【问题标题】:Fast RCNN - ROI projection快速 RCNN - ROI 投影
【发布时间】:2020-08-08 03:22:23
【问题描述】:

在 Fast RCNN 方法中,原始图像中的区域提议被投影到最终卷积特征图的输出上。在 VGG 网络的情况下,输入图像的大小为 224 x 244,卷积特征图的最终输出为 14 x 14 x 512。

这是否意味着输入图像上的提案被投影到特征图上以进行 ROI 池化?投影是边界框的简单缩放吗?

【问题讨论】:

    标签: deep-learning


    【解决方案1】:

    这篇文章很好地描述了 RoI 池化以及如何从原始标签中获得特征图的 RoI BB 等效值。

    https://medium.com/datadriveninvestor/review-on-fast-rcnn-202c9eadd23b

    基本上,RoI 池化的目标是从 CNN 输出特征图的任意大小部分输出固定大小的特征图。

    为此,您必须进行 RoI 投影,将原始图像的 RoI BB (x,y,h,w) 转换为特征图中所需的 RoI BB。这是通过根据子采样率对其进行缩放来完成的。

    例如)

    • 如果您的图像是 18x18 并且您的特征图是 3x3,那么您的子采样率为 3/18。
    • 要获得预计的 RoI BB,然后将其乘以原始 BB 值,例如 x' = (3/18)x

    然后您只需在特征图的该部分进行池化,池化窗口的数量为 H×W,大小为 ~h'/H×w'/W,其中 H 和 W 是目标的高度和宽度池化层的输出。

    这篇文章给出了更好的描述,我鼓励你去看看它和原始论文!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-12-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-10-05
      • 2015-05-14
      相关资源
      最近更新 更多