SSD论文翻译 - 爱码网

Abstract.我们提出了一种利用单个深度卷积神经网络在输入图像中进行目标检测的方法。我们的方法，命名为SSD。SSD将输出的目标框离散化为一系列具有不同的尺度、不同的宽高比的候选框。在测试阶段，SSD对每一个候选框中的目标预测类别得分，并生成候选框的偏移量，偏移量用来调整候选框的位置和宽高，使预测的目标框更加准确。同时，为了预测不同尺度的目标，SSD利用里多个不同层次的特征图做目标检测。SSD目标检测方法去除了建议框生成模块和建议框特征提取步骤，所以检测速度非常快。

1 Introduction

当前做好的目标检测方法是以下方法的变体：生成建议框，对各建议框进行特征提取，然后使用一个高质量的分类器对各建议框特征进行分类。如：RCNN、Fast RCNN、Faster RCNN。

本文首次提出了一种基于深度卷积神经网络的目标检测方法——不需要对建议框进行特征提取，所以速度非常快。提升检测速度的一个关键点是——消除了建议框的生成和建议框特征提取的阶段。除此之外，SSD还利用小的卷积核去预测每一个候选框的类别得分和偏移量，并利用不同层次的卷积特征图做目标检测。为了预测不同大小的目标，SSD利用里多个不同层次的特征图做预测，低层的特征层具有较小的感受野，高层的特征图具有较大的感受野，所以利用底层的卷积层预测小尺度目标，利用高层的卷积层预测尺度较大的目标。

2 The Single Shot Detector(SSD)

如图1：

SSD论文翻译

(a) 在训练阶段，网络的输入为训练图像和图像中的目标的标定框。在特征图中的每一个点处，SSD预测多个具有不同尺度、不同宽高比的候选框，如(a)、(b)所示。在训练阶段中，SSD首先对候选框与真实框做匹配。将匹配到的候选框作为正样本，没有匹配上的候选框作为负样本。模型的损失两部分，分别为分类损失和边界框损失。

2.1 Model

SSD方法基于前馈卷积神经网络，该网络产生固定大小的边界框集合，以及这些框中目标类别的评分，然后使用非极大抑制，产生最终检测结果。SSD的基础网络是一个标准的分类网络，知识去掉了全连接层和分类层，基础网络的作用是提取图像特征。然后在基础网络产生的特征图后分别添加了一个卷积层用于产生类别得分和一个卷积层用于产生边框回归结果。

1.利用多个特征图做目标检测 SSD在这些选择的特征层后添加了一系列的卷积层用于目标的检测。这些选择的特征层的输出特征图的大小逐渐减小，感受野逐渐变大，可以用于检测不同尺度大小的目标。

2 利用卷积层做检测每一个选择的特征图，利用一组卷积核做卷积就可以产生一系列的检测结果。对于一个M x N x C的特征图，利用3X3XC的卷积核在M x N的每一个位置处做卷积，得到各候选框的类别得分和相对于候选框的偏移量。