R-CNN 论文笔记

关于最新最全的目标检测论文,可以查看awesome-object-detection

《Rich feature hierarchies for accurate object detection and semantic segmentation》

CVPR 2014

推荐阅读

R-CNN:Regions + CNN

创新点

  • 使用CNN(ConvNet)对 region proposals 计算 feature vectors。从经验驱动特征(SIFT、HOG)到数据驱动特征(CNN feature map),提高特征对样本的表示能力。

  • 采用大样本下(ILSVRC)有监督预训练和小样本(PASCAL)微调(fine-tuning)的方法解决小样本难以训练甚至过拟合等问题。

注:ILSVRC其实就是众所周知的ImageNet的挑战赛,数据量极大;PASCAL数据集(包含目标检测和图像分割等),相对较小。

结果

在VOC2012中,将mAP(mean average percision)提高了30%以上

先看一下 PASCAL VOC历年(2007~2012)的检测冠军,可见DPM的统治力有多强大!(刚荣获CVPR 2018 Longuet-Higgins Prize)
R-CNN论文笔记

但直到2013年 R-CNN的横空出世,一切都被打破了!
之后目标检测领域就进入 R-CNN系列的疯狂统治中……
R-CNN论文笔记

R-CNN流程

R-CNN论文笔记

R-CNN论文笔记
图像来源: r-cnn-ilsvrc2013-workshop.pdf

题外话:R-CNN作为R-CNN系列的第一代算法,其实没有过多的使用“深度学习”思想,而是将“深度学习”和传统的“计算机视觉”的知识相结合。

比如pipeline中的第二步和第四步其实就属于传统的“计算机视觉”技术。使用selective search提取region proposals,使用SVM实现分类。

而R-CNN系列的第三代算法:Faster R-CNN是使用RPN来提取 region proposals,而使用softmax实现分类。Faster R-CNN才是纯正的深度学习算法。

R-CNN论文笔记
图像来源: r-cnn-ilsvrc2013-workshop.pdf

原论文中R-CNN pipeline只有4个步骤,光看上图无法深刻理解R-CNN处理机制,下面结合图示补充相应文字

  1. 预训练模型。选择一个预训练 (pre-trained)神经网络(如AlexNet、VGG)

  2. 重新训练全连接层。使用需要检测的目标重新训练(re-train)最后全连接层(connected layer)

  3. 提取 proposals并计算CNN 特征。利用选择性搜索(Selective Search)算法提取所有proposals(大约2000个 / image),调整(resize/warp)它们成固定大小,以满足 CNN输入要求(因为全连接层的限制),然后将feature map 保存到本地磁盘。

R-CNN论文笔记

  1. 训练SVM。利用feature map 训练SVM来对目标和背景进行分类(每个类一个二进制SVM)

  2. 边界框回归(Bounding boxes Regression)。训练将输出一些校正因子的线性回归分类器

R-CNN论文笔记

看完上述,如果你可能会存在疑问?深度学习明明分训练和测试两个阶段,为什么上述没有说明两者的区别?(很多解读性文章都忽略了这一点)

放心,作为小白而言,当然要一步步搞懂这个内容,下面将单独介绍训练过程和测试过程。

R-CNN 训练过程

  1. 在大型数据集(ImageNet,即ILSVRC竞赛)上预训练用于图像分类的CNN。

  2. 在小型目标数据集(PASAC VOC)上微调(fine-tuning)CNN。

  3. 利用Selective Search提取2k多个region proposals并warp到同一size,然后输入训练好的CNN网络中,最后对每类训练SVM(因为SVM本身是二分类,如何通过对每类训练SVM而实现多分类呢?这个需要你百度自行了解。提示两个名词:one-versus-rest和one-versus-one)

训练过程如下所示

R-CNN论文笔记
图像来源: r-cnn-ilsvrc2013-workshop.pdf

R-CNN论文笔记
图像来源: r-cnn-ilsvrc2013-workshop.pdf

那么上述所说的CNN网络究竟长什么样子呢?

答:其实和AlexNet差不多,这里就不赘述,下面附上2012年ImageNet夺冠的AlexNet网络。

R-CNN论文笔记

R-CNN 测试过程

  1. 输入一张多目标图像,采用selective search算法提取约2000个建议框;

R-CNN论文笔记

  1. 先在每个建议框周围加上16个像素值,然后裁剪(crop),再直接 scale 为227×227的大小(AlexNet网络输入图像大小:227x227);将所有建议框像素减去该建议框像素平均值后【预处理操作】,再依次将每个227×227的建议框输入AlexNet CNN网络获取4096维的特征【比以前的人工经验特征低两个数量级】,2000个建议框的CNN特征组合成2000×4096维矩阵;

R-CNN论文笔记

R-CNN论文笔记

R-CNN论文笔记

  1. 将2000×4096维特征与20个SVM组成的权值矩阵4096×20相乘【20种分类,SVM是二分类器,则有20个SVM】,获得2000×20维矩阵表示每个建议框是某个物体类别的得分;分别对上述2000×20维矩阵中每一列即每一类进行非极大值抑制剔除重叠建议框,得到该列即该类中得分最高的一些建议框;

R-CNN论文笔记

  1. 分别用20个回归器对上述20个类别中剩余的建议框进行回归操作,最终得到每个类别的修正后的得分最高的bounding box。

R-CNN论文笔记

检测结果如下图所示

R-CNN论文笔记

R-CNN论文笔记

R-CNN论文笔记

细节分析

  1. selective search
    采取过分割手段,将图像分割成小区域,再通过颜色直方图,梯度直方图相近等规则进行合并,最后生成约2000个建议框的操作,具体见博客

  2. 为什么要将建议框变形为227×227?怎么做?
    本文采用AlexNet CNN网络进行CNN特征提取,为了适应AlexNet网络的输入图像大小:227×227,故将所有建议框变形为227×227。

那么问题来了,如何进行变形操作呢?作者在补充材料中给出了四种变形方式:

① 考虑context【图像中context指RoI周边像素】的各向同性变形,建议框像素周围像素扩充到227×227,若遇到图像边界则用建议框像素均值填充,下图第二列;

② 不考虑context的各向同性变形,直接用建议框像素均值填充至227×227,下图第一行第三列;

③ 各向异性变形,简单粗暴对图像就行缩放至227×227,下图第一行第四列;

④ 变形前先进行边界像素填充【padding】处理,即向外扩展建议框边界,以上三种方法中分别采用padding=0下图第一行,padding=16下图第二行进行处理。

经过作者一系列实验表明采用padding=16的各向异性变形(anisotropically warp)即下图第二行第四列效果最好,能使mAP提升3-5%。

  1. CNN特征如何可视化?

文中采用了巧妙的方式将AlexNet CNN网络中Pool5层特征进行了可视化。该层的size是6×6×256,即有256种表示不同的特征,这相当于原始227×227图片中有256种195×195的感受视野【相当于对227×227的输入图像,卷积核大小为195×195,padding=4,step=8,输出大小(227-195+2×4)/8+1=6×6】;

文中将这些特征视为”物体检测器”,输入10million的Region Proposal集合,计算每种6×6特征即“物体检测器”的**量,之后进行非极大值抑制【下面解释】,最后展示出每种6×6特征即“物体检测器”前几个得分最高的Region Proposal,从而给出了这种6×6的特征图表示了什么纹理、结构,很有意思。

  1. 为什么要进行非极大值抑制?非极大值抑制又如何操作?
    先解释什么叫IoU。如下图所示IoU即表示(A∩B)/(A∪B)

R-CNN论文笔记

在测试过程完成到第4步之后,获得2000×20维矩阵表示每个建议框是某个物体类别的得分情况,此时会遇到下图所示情况,同一个车辆目标会被多个建议框包围,这时需要非极大值抑制操作去除得分较低的候选框以减少重叠框。

R-CNN论文笔记

具体怎么做呢? 列(类)—> 框

① 对2000×20维矩阵中每列按从大到小进行排序;

② 从每列(同一类)最大的得分建议框(共2000个)开始,分别与该列后面的得分建议框进行IoU计算,若IoU>阈值,则剔除得分较小的建议框(说明重叠率很大,两个建议框被视为描述一个目标,此时只保留最大得分建议框),否则(说明重叠率很小),则认为图像中存在多个同一类物体;

③ 从每列次大的得分建议框开始,重复步骤②(这里的次大得分建议框的起始位置应该是在大的得分建议框后,或者在满足”若IoU>阈值,则剔除得分较小的建议框“里的建议框后);

④ 重复步骤③直到遍历完该列所有建议框;

⑤ 遍历完2000×20维矩阵所有列(共20个),即所有物体种类都做一遍非极大值抑制(保留了同一个目标最高的得分建议框,即剔除了同一目标(这里是指目标,对象而不是类别)满足重叠率非最大得分的建议框);

⑥ 最后剔除各个类别中剩余建议框得分少于该类别阈值的建议框。【文中没有讲,博主觉得有必要做】

5.为什么要采用回归器?回归器是什么有什么用?如何进行操作?

首先要明确目标检测不仅是要对目标进行识别,还要完成定位任务,所以最终获得的bounding-box也决定了目标检测的精度。

这里先解释一下什么叫定位精度:定位精度可以用算法得出的物体检测框与实际标注的物体边界框的IoU值来近似表示。

如下图所示,绿色框为实际标准的卡宴车辆框,即Ground Truth;黄色框为selective search算法得出的建议框,即Region Proposal。即使黄色框中物体被分类器识别为卡宴车辆,但是由于绿色框和黄色框IoU值并不大,所以最后的目标检测精度并不高。采用回归器是为了对建议框进行校正,使得校正后的Region Proposal与selective search更接近, 以提高最终的检测精度。论文中采用bounding-box回归使mAP提高了3~4%。

R-CNN论文笔记

上述参考:R-CNN论文详解

R-CNN不足

  • 重复计算。通过selective search 提取近2000左右的候选框,即今2000个ROI,RCNN对每个ROI,都跑一遍CNN,计算量很大,而且其实这些ROI之间是有overlap,显然有大量计算是重复的。(所以SPP-Net和Fast-RCNN对其进行改进)

  • Multiple-stage pipeline:训练分为多个阶段,region proposals、ConvNet、SVM、BB Regression。

  • 训练耗时,占有磁盘空间大。卷积出来的特征数据还要保持至本地磁盘。

R-CNN论文笔记

一点题外话:
当初R-CNN也不是说只用于目标检测,其实语义分割也是杠杠的

R-CNN论文笔记

思考

神经网络究竟学习到了什么?

R-CNN论文笔记

R-CNN论文笔记

R-NN原论文精简内容

结果:在VOC2012中,将mAP(mean average percision)提高了30%以上
two key insights:

  1. 将CNN应用到bottom-up的region proposal中,实现定位和分割

  2. 监督预训练
    简单来说,将region proposals和CNN相结合,故称为R-CNN(Regions with CNN features)

1.引言

传统的目标检测方法是SIFT和HOG方法实现,此类方法都是blockwise orientation histograms。
1989年LeCun等人使用反向传播实现梯度下降,大大提高了CNN的训练
2012年,Hinton和他的学生在ILSVRC2012比赛中,使用AlexNet(一个含有ReLU**和”dropout”正则化的大型CNN)获得相当高的图像分类准确率。
这引发了RBG的深思:如何将CNN在ImageNet上的分类结果应用到PASCAL VOC上的object detection上呢?(即如何将CNN的image classification与object detection建立联系)。于是RBG就开始干了,将image classification和object detection结合起来。
在介绍方法前,先讨论两个问题(也是R-CNN的贡献所在):
(1)使用deep network来localize object;
(2)训练一个仅有少量标注的检测数据的high-capacity model
第一个问题localize object:
答:使用region proposals
与image classification不同,detection需要在一幅图像中locaizing很多目标(可能图像中只有n个目标,但要局部确定m个目标,m远远大于n,后面会筛洗)。R-CNN将localization看作regression问题(注意,只使用DNN去实现object detection,效果并不好,见2013 NISP)。
借鉴CNN的sliding-window detector方法,R-CNN也采用sliding-window approch。但典型的CNN只有两个卷积和pooling层,而R-CNN中有5层卷积层,receptive fields为195*195,strides为32*32。这也使得在sliding-window中达到准确定位成为一个难题。

于是,R-CNN通过recognition using regions(selective search)解决了CNN localization问题。如此一来,在测试时,这种方法对于输入图像会生成近2000独立”类别”区域的proposals,使用CNN从每个proposal中提取fixed-length feature vector,然后使用SVM对每个区域进行分类(即对CNN提取的feature进行分类)。R-CNN使用affine image warping从每个region proposal计算fixed-size CNN(这里不用考虑region的shape)。
下图显示了R-CNN整个方法的综述并强调一些结果:

这里停顿强调一下,R-CNN是将region proposals和CNN结合一起,故称为R-CNN:Regions with CNN features

文章中,将R-CNN和同年2014年提出的OverFeat在200-class ILSVRC2013 detection datsset上进行比较。OverFeat使用sliding-window CNN用于检测,虽然在ILSVRC2013 detection比赛时,OverFeat达到最佳性能,但R-CNN后面”显著地”超过了OverFeat的效果(论科研的生产力),

第二个问题:标记的数据是scarce(稀缺的), 目前可用的数量不足以训练一个大型 CNN
答:先使用supervised pre-training,再使用domain-specific fine-tuning
传统的解决方法是先使用unsupervised pre-traing,再使用supervised fine-tuning;而R-CNN是先使用在ILSVRC(较大的数据集)上的supervised pre-training,再使用在PASACL(较小的数据集)进行domain-specific fine-tuning。当数据较少时,这是一个学习high-capacity CNN的有效paradigm(方法)。
fine-tuning对于detection提高了8%mAP。在fine-tuning后,R-CNN在VOC2010上达到54%mAP(以前最高是基于HOG的DPM,达到33%mAP)。

注意:R-CNN还可以用于semantic segmentation

2.R-CNN方法

R-CNN实现目标检测,是由3个模块组成:
(1)[Region proposals]产生category-independent region proposals,即与类别无关的region proposals(毕竟没有还用到CNN),这些proposals定义了对于检测器可用的所有候选检测集。
(2)[Feature extraction]大型的CNN,用于从上述检测到的每个区域来提取fixed-length特征向量
(3)[classification]classspecific linear SVM集合。

Region proposals

目的是实现category-independent region proposals,但有很多方法可以实现,如objectness、selective search、CPMC等。但R-CNN对特定region propoal method是agnostic,所以使用selective search使之前的检测工作controlled comparision。

参考:https://blog.csdn.net/zijin0802034/article/details/77685438
http://caffecn.cn/?/question/160

Feature extraction

R-CNN使用Caffe实现的CNN(5个卷积层和2个全连接层)来对每个region proposal提取4096-dimentational feature vector。为了对region proposal计算特征,我们首先必须将region中的image data转换成与CNN input fixed pixel size一致的size(确保dimension相同),如227*227 pixel size。
不管candidate region的size或者aspect ratio(长宽比),R-CNN都将tight bounding box中的all pixels warp(变换到)所需要的size。在warping之前,我们dilate(膨胀/扩大)tight bounding box,使其在warped size有确切的 p 像素扭曲图像周围的原始框(没读懂)

Test-time detection

在测试图像上,运行select search提取近2000个region proposals。将这些proposal进行warp使之前向传播到CNN来提取feature。
然后,对于每一类,使用SVM对提取的feature进行score(评分)——其实就是对每个proposal进行分类
对图像中所有的scored regions应用greed non-maximum suppression(贪婪非极大值因抑制)来reject具有intersection-over-union(IoU)(交并比)较小的区域。

Run-time analysis

两种特性使得检测efficient。第一,所有的CNN参数都在所有的categories中共享;第二,由CNN计算的feature vectors都是low-dimensional(

Training

Superivised pre-training
在ILSVRC2012分类的image-level annotations上使用CNN进行pre-trained,使用Caffe CNN库进行pre-training。4

Domain-specific fine-tuning

为了CNN适应detection和new domain(warped proposal windows),R-CNN仅使用warped region proposals来进行stochastic gradient descent(SGD随机梯度下降)从而训练CNN parameters。

Object category classifiers

如何解决给图像中包含目标的局部区域贴上lable(注意不是给整个图像贴上label,不如成为classification)?R-CNN使用IoU(Intersection over Union)overlap threshold解决这个问题,即低于该threshold的region proposals定义为negatives,相反定义为positive。R-CNN在validation set上将overlap threshold设置为0.3。
一旦提取好feature,贴上training labels后,R-CNN对每一类使用one linear SVM来优化。

Results

在PASCAL VOC 2010-12上进行Object Classification测试,R-CNN在VOC 2011/12测试中达到53.3%
在200-Class ILSVRC2013 detection dataset上进行object detection测试(使用与PASCAL VOC一致的hyperparameters),R-CNN达到24.3%mAP,极大地超越了第二名24.3%mAP。

相关文章:

  • 2021-10-16
  • 2021-07-25
  • 2021-07-02
  • 2021-04-18
  • 2021-08-02
猜你喜欢
  • 2021-04-07
  • 2021-08-13
  • 2021-08-02
  • 2021-12-10
  • 2021-10-26
  • 2022-01-03
相关资源
相似解决方案