Fast R-CNN 中 ROI 层的目的是什么？答案

【问题标题】：What is the purpose of the ROI layer in a Fast R-CNN?Fast R-CNN 中 ROI 层的目的是什么？
【发布时间】：2018-09-28 18:04:31
【问题描述】：

在this关于物体检测的教程中，提到了fast R-CNN。还提到了 ROI（感兴趣区域）层。

从数学上讲，当区域建议根据最终卷积层激活函数（在每个单元中）调整大小时会发生什么？

【问题讨论】：

【解决方案1】：

感兴趣区域（RoI）池化：

它是一种池化层，它对大小不均匀的输入（这里是卷积特征图）执行 最大池化，并生成一个固定大小的小特征图（比如 7x7）。这个固定大小的选择是一个网络超参数并且是预定义的。

进行这种池化的主要目的是加快训练和测试时间，并从端到端（以联合方式）训练整个系统。

由于使用了这个池化层，与原始（普通？）R-CNN 架构相比，训练和测试时间更快，因此得名 Fast R-CNN。

【讨论】：

【解决方案2】：

ROI（感兴趣区域）层在Fast R-CNN 中引入，是空间金字塔池化层的一个特例，在Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 中引入。由于全连接层的大小限制，ROI 层的主要功能是将任意大小的输入重塑为固定长度的输出。

ROI 层的工作原理如下所示：

在此图像中，任意大小的输入图像被馈送到具有 3 个不同窗口的层：4x4（蓝色）、2x2（绿色）、1x1（灰色）以产生固定大小为 16 x F、4 x F 和 1 x F，其中 F 是过滤器的数量。然后，这些输出被连接成一个向量，以馈送到全连接层。

【讨论】：

您能否详细说明“由于全连接层中的大小限制”这一点。既然我们将像素值（标量）输入到 FC 层的神经元中，那么输入矩阵的大小有什么关系呢。
“尺寸约束”是指输入图像的尺寸。例如，LeNet-5 只能拍摄 32x32 的图像，因此您可以在不调整大小的情况下将 64x64 或 64x32 的图像输入其中，这最终会导致转换中的损失。这种约束是由于第一个全连接层“需要根据其定义具有固定大小/长度的输入”。
FC 层的大小限制是因为 FC 层执行与矩阵向量乘法相同的操作。矩阵包含参数并且是固定大小，因此输入向量必须是匹配大小。
RPN 预测 bbox 坐标。这个预测如何映射到从中提取 RoIPooling 的卷积层？显然conv层的参数H和W很小，不像预测的bbox
另外，convlayers 通常有很多地图（例如 512）。它们都用于投资回报池吗？