【问题标题】:What is the purpose of the ROI layer in a Fast R-CNN?Fast R-CNN 中 ROI 层的目的是什么?
【发布时间】:2018-09-28 18:04:31
【问题描述】:

this关于物体检测的教程中,提到了fast R-CNN。还提到了 ROI(感兴趣区域)层。

从数学上讲,当区域建议根据最终卷积层激活函数(在每个单元中)调整大小时会发生什么?

【问题讨论】:

    标签: deep-learning computer-vision conv-neural-network object-detection


    【解决方案1】:

    感兴趣区域(RoI)池化:

    它是一种池化层,它对大小不均匀的输入(这里是卷积特征图)执行 最大池化,并生成一个固定大小的小特征图(比如 7x7)。这个固定大小的选择是一个网络超参数并且是预定义的。

    进行这种池化的主要目的是加快训练和测试时间,并从端到端(以联合方式)训练整个系统。

    由于使用了这个池化层,与原始(普通?)R-CNN 架构相比,训练和测试时间更快,因此得名 Fast R-CNN。

    简单示例(来自Region of interest pooling explained by deepsense.io):

    【讨论】:

    • 这里的区域建议是指图像中区域的形状或图像中带有像素的部分,然后乘以最大过滤器值?
    • @ShamaneSiriwardhana Region proposal 是一种从图像中提出感兴趣区域的方法。
    【解决方案2】:

    ROI(感兴趣区域)层在Fast R-CNN 中引入,是空间金字塔池化层的一个特例,在Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 中引入。由于全连接层的大小限制,ROI 层的主要功能是将任意大小的输入重塑为固定长度的输出。

    ROI 层的工作原理如下所示:

    在此图像中,任意大小的输入图像被馈送到具有 3 个不同窗口的层:4x4(蓝色)、2x2(绿色)、1x1(灰色)以产生固定大小为 16 x F、4 x F 和 1 x F,其中 F 是过滤器的数量。然后,这些输出被连接成一个向量,以馈送到全连接层。

    【讨论】:

    • 您能否详细说明“由于全连接层中的大小限制”这一点。既然我们将像素值(标量)输入到 FC 层的神经元中,那么输入矩阵的大小有什么关系呢。
    • “尺寸约束”是指输入图像的尺寸。例如,LeNet-5 只能拍摄 32x32 的图像,因此您可以在不调整大小的情况下将 64x64 或 64x32 的图像输入其中,这最终会导致转换中的损失。这种约束是由于第一个全连接层“需要根据其定义具有固定大小/长度的输入”。
    • FC 层的大小限制是因为 FC 层执行与矩阵向量乘法相同的操作。矩阵包含参数并且是固定大小,因此输入向量必须是匹配大小。
    • RPN 预测 bbox 坐标。这个预测如何映射到从中提取 RoIPooling 的卷积层?显然conv层的参数H和W很小,不像预测的bbox
    • 另外,convlayers 通常有很多地图(例如 512)。它们都用于投资回报池吗?
    猜你喜欢
    • 2021-11-23
    • 1970-01-01
    • 2019-08-24
    • 1970-01-01
    • 1970-01-01
    • 2023-03-31
    • 2016-06-17
    • 2023-03-12
    • 2017-12-11
    相关资源
    最近更新 更多