背景
旋转框检测模型RRPN是通过生成大量的旋转锚框来实现多角度目标检测,后续提出的旋转框检测模型主要是在此基础上进行细节方面的改进。这种通过生成大量旋转框的方法最主要的缺点是冗余计算导致检测速度很慢。
本文主要内容
本文提出RoI Transformer来解决此问题。RoI Transformer 是一个三阶段检测模型,主要由RRoI Leaner和RRoI Wraping两部分组成,核心思想是把RPN输出的水平锚框HRoI转换为旋转锚框RRoI。此策略无需增加锚点的数量且可以获得精确的RRoI。RoI Transformer检测模型目前在DOTA数据集排名第二。
RoI Transformer检测模型
RoI Transformer检测模型结构如图所示,主要由RRoI Leaner和RRoI Wraping两部分组成。对于RPN生成的每个水平锚框HRoI,都会作为输入传递给RRoI Leaner, RRoI Leaner结构是由PS RoI Align、尺寸为5的全连接层以及解码器构成。PS RoI Align减少特征图的维数,将单个全连接层合并到10个通道,显著提高了计算速度;在全连接层使Rotated Ground Truths(RGTs)相对于HRoI的偏移量回归;解码器将HRoI和偏移量作为输入并输出解码后的RRoI。将特征图和解码后的RRoI传入RRoI Wrapping进行深度特征提取。最后,利用RRoI Transformer输出的特征进行分类和回归。
借下图进一步说明RoI Transformer流程
图中红色框GroundTruth®即为图中标注的目标物体,图片经过RPN生成水平锚框Anchor(绿色框),在RRoI Transformer中,RRoI Leaner利用ROI Pooling/ROI
Align的方式把水平Anchor回归到一个旋转的结果Refined Bbox(黄色框)。在两阶段网络结构中,模型到这里就结束了,但是本网络还有一个修正阶段,通过使用RotateROIPooling,输入黄色的框,进一步修正框的坐标信息,获得最后的预测结果。
RRoI Leaner
RRoI Leaner主要负责从水平特征图HRoIs中学习RRoIs。假设我们得到了n个由(x,y,w,h)表示的HRoI,x,y表示HRoI中心点的位置,w表示宽度,h表示高度。理想情况下每个HRoI都是RRoI的外接矩形。利用全连接层从每个HRoI推测RRoI的几何形状。对于一般情况下RRoI的偏移量回归目标如下
其中 表示RRoI的中心点位置,宽度,高度和方向, 是GroundTruth定向边界框(OBB)的轮廓参数。Mod用于调整角度偏移目标 。相对于HRoI的回归偏移目标即为上式 时的特例。对于每个HRoI特征图全连接层会输出一个向量 ,对应关系如下
其中G表示完全连接的层,Θ是G的权重参数,F是每个HRoI的特征图。
模型训练时,需将输入的HRoI和OBB(GroundTruth)进行匹配。匹配后通过等式(1)得到偏移量目标 ,然后从 中解码出RRoI的参数。也就是说,我们提出的RRoI Leaner可以从HRoI特征图中学习RRoI的参数。
RRoI Warping
RRoI Warping通过RRoI的参数提取旋转不变的深度特征。
变形的特征图形状为水平矩形(例如,此处使用3×3。)用于RRoI Warping的采样网格由RRoI 确定。为了更好地说明,此处使用图像而不是特征图。 RRoI变形后,提取的特征具有几何鲁棒性。 (所有车辆的方向都相同)。
因为采用Light-Head R-CNN,这里RRoI Warping具体使用Rotated Position Sensitive (RPS) RoI Align。输入形状为(H,W,K×K×C)的特征图和形状为 的RRoI,RPS RoI Align将RRoI划分为,K×K个bin并输出形状为(K,K,C)的特征图Y,如下式
式中 将每个(x,y)转换为(x’,y’), 具体如下
算法框架
为了提高运算效率,本文采用改进的Light-head R-CNN,backbone采用ResNet101,在最终检测阶段采用FPN。