【发布时间】:2018-09-28 18:04:31
【问题描述】:
在this关于物体检测的教程中,提到了fast R-CNN。还提到了 ROI(感兴趣区域)层。
从数学上讲,当区域建议根据最终卷积层激活函数(在每个单元中)调整大小时会发生什么?
【问题讨论】:
标签: deep-learning computer-vision conv-neural-network object-detection
在this关于物体检测的教程中,提到了fast R-CNN。还提到了 ROI(感兴趣区域)层。
从数学上讲,当区域建议根据最终卷积层激活函数(在每个单元中)调整大小时会发生什么?
【问题讨论】:
标签: deep-learning computer-vision conv-neural-network object-detection
感兴趣区域(RoI)池化:
它是一种池化层,它对大小不均匀的输入(这里是卷积特征图)执行 最大池化,并生成一个固定大小的小特征图(比如 7x7)。这个固定大小的选择是一个网络超参数并且是预定义的。
进行这种池化的主要目的是加快训练和测试时间,并从端到端(以联合方式)训练整个系统。
由于使用了这个池化层,与原始(普通?)R-CNN 架构相比,训练和测试时间更快,因此得名 Fast R-CNN。
简单示例(来自Region of interest pooling explained by deepsense.io):
【讨论】:
ROI(感兴趣区域)层在Fast R-CNN 中引入,是空间金字塔池化层的一个特例,在Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 中引入。由于全连接层的大小限制,ROI 层的主要功能是将任意大小的输入重塑为固定长度的输出。
ROI 层的工作原理如下所示:
在此图像中,任意大小的输入图像被馈送到具有 3 个不同窗口的层:4x4(蓝色)、2x2(绿色)、1x1(灰色)以产生固定大小为 16 x F、4 x F 和 1 x F,其中 F 是过滤器的数量。然后,这些输出被连接成一个向量,以馈送到全连接层。
【讨论】: