1.前言

  在卷积神经网络入门一节中,讲述了卷积神经网络的基本构建,比如卷积层、池化层以及全连接层,在过去很长一段时间,计算机视觉的大量研究都集中在如何组合这些基本构建,形成有效的神经网络。实际中在计算机视觉中表现良好的网络往往也适用于其它的任务,比如其它人训练了一个识别猫的网络结构,而你的任务是自动驾驶,你完全可以借鉴别人的神经网络框架。

2.经典网络:

  • LeNet-5
    吴恩达deeplearning之CNN—深度卷积网络
    • 参数个数:约6万个
    • 随着网络越深,图像大小(nH,nW)在缩小,通道数(nC)在增加
    • 一个或多个卷积网络后面接池化层的思想至今仍在使用
    • 原论文[1]
  • AlexNet
    吴恩达deeplearning之CNN—深度卷积网络
    • 参数个数:6000万个
    • 在训练图像和数据集时AlexNet能够用非常相似的基本构造模块,这些模块通常包含大量的隐藏单元或数据,这使得AlexNet有非常惊艳的效果。
    • AlexNet比LeNet表现好的另外一个原因是使用了Relu**函数
    • 从这篇论文后人们开始确信深度学习可以应用于计算机视觉领域
    • 原论文[2]
  • VGG - 16
    吴恩达deeplearning之CNN—深度卷积网络
    • 参数个数:1.38亿个参数
    • 每一组卷积网络的过滤器个数翻倍
    • vgg-16和vgg-19网络效果差不多,大部分人还是使用vgg-16
    • vgg-16 网络没有那么多的超参数,这是一种专注于构建卷积层的简单网络
    • vgg的优点是简化了神经网络结构
    • 原论文[3]

3.残差网络

  非常非常深的卷积网络是很难训练的,因为存在梯度消失和梯度爆炸问题,ResNets可以构建100层以上的神经网络。

  1. Residual Block(残差块)
    吴恩达deeplearning之CNN—深度卷积网络
      假设有有一个两层的卷积网络,从l层到l+2层,通常神经网络的处理流程是:
  2. a[l]线性变换:z[l]=W[l+1]a[l]+b[l+1]
  3. RELU非线性**:a[l+1]=g(z[l+1])
  4. a[l+1]线性变换:z[l+2]=W[l+2]a[l+1]+b[l+2]
  5. RELU非线性**:a[l+2]=g(z[l+2])

    残差网络和普通网络的差异是,a[l+2]在进行非线性变化前,把a[l]的数据拷贝了一份与z[l+1]累加后进行了非线性变换,也就是说第4部和之前有所不同:
    4. RELU非线性**:a[l+2]=g(a[l]+z[l+2])
    残差网络就是这些残差块的堆叠,通过这种方式可以把网络设计的很深。
    对于普通的卷积网络,用梯度下降等常用的优化算法进行优化,随着网络深度的增加,训练误差会呈现出先降低后增加的趋势,而我们期望的理想结果是随着网络深度的增加训练误差逐渐减小,而ResNets随着网络深度的增加训练误差会一直减小,有人在1000层的卷积网络上做过实验,依然呈现出这个趋势。
    吴恩达deeplearning之CNN—深度卷积网络
    为什么ResNet会有这么好的表现呢?
      通常网络在训练集上表现好,才能在Hold-Out交叉验证集或测试集上有好的表现。从上一部分得出的结论,残差块的输出可以表示为:

    a[l+2]=g(a[l]+z[l+2])=g(W[l+2]a[l+1]+b[l+2]+a[l])

      如果W[l+2]=0b[l+2]=0那么等式就变成了a[l+2]=g(a[l])=a[l](Relu**函数),结果表明,残差块学习这个恒等式并不困难,由于skip connection使我们很容易得到a[l+2]=a[l],这也就意味着即使给神经网络增加了两层,它的效率也不逊色于更简单的神经网络,因为学习恒等函数还是很简单的,我们的目标并不仅仅是为了提升网络的效率,如果残差块中的隐藏单元学习到一些有用信息,那么它可能比学习恒等式函数表现更好。ResNet起作用的主要原因也是学习恒等函数非常容易。
    吴恩达deeplearning之CNN—深度卷积网络
    作者论文中给出的普通卷积网络和ResNets网络的网络结构图对比:
    吴恩达deeplearning之CNN—深度卷积网络

4. 1×1网络

  1. 为什么要做1×1卷积
      对于一个6*6的灰度图像做1×1卷积就相当于给每个元素放大或缩小相同的倍数,其实没有什么用处,如果输入图像不是6*6的灰度图像而是一个6*6*32有32个通道的图像,那1×1的大小为1*1*32,计算6*6*32每个像素32个通道与1×1对应位置的乘积累加得到一个实数,6*6每个像素都进行相应的运算最终重新得到一幅6*6的图像,输出图像的通道数就等于1*1*32网络过滤器的个数。1×1的网络可以从根本上理解为全连接的网络。
    吴恩达deeplearning之CNN—深度卷积网络
      以下是示例,对于一个28*28*192的输入图像,输入图像通道数是192,如果你想得到一个有32个通道的输出图像,怎么处理?就可以使用包含32个过滤器的1×1网络。换个角度理解就是,池化层是压缩图像宽度和高度,而1×1网络可以压缩图像的通道数。
    吴恩达deeplearning之CNN—深度卷积网络

5.Inception网络

  在构建卷积层时,通常要决定过滤器的大小究竟是3×3还是5×5或者要不要添加池化层,Inception网络的作用就是代替你来做决定。
  如下图所示,输入层是一个28*28*192维度的图像,Inception网络的作用就是代替人工来确定卷积层中过滤器的类型,或者确定是否需要创建卷积层或池化层。下图输入图像通过64个1*1过滤器、128个3*3过滤器、32个5*5过滤器以及32个最大池化过滤器输出图像大小仍然为28*28,通道数是经各个过滤器卷积后输出结果的累加。
吴恩达deeplearning之CNN—深度卷积网络
这个算法的计算成本如何呢?
  以5*5过滤器为例,卷积过程中输出数值个数为282832,对于输出中每个数值都需要执行5*5*192次乘法运算,所以乘法运算的总次数为28283255192=1.2亿,成本还是相当高的。
吴恩达deeplearning之CNN—深度卷积网络
  另外一种输入是28*28*192,输出是28*28*32的架构是使用1×1卷积,对于输入层使用1×1卷积,把输入数值从192个通道减少到16个通道,然后对这个较小层运行5*5卷积,得到最终结果,中间这个28*28*16层有时被称为瓶颈层(bottleneck),这个算法的计算成本:
1*1网络:28*28*16*192=240万
5*5网络:28*28*32*5*5*16=1000万
  总共的计算成本为1240万,相比于之前的1.2亿,计算成本较少为之前的十分之一。事实证明,只要合理的设计bottleneck层,既可以显著缩小表示层规模,又不会降低网络性能,从而节省大量计算成本。
吴恩达deeplearning之CNN—深度卷积网络
Inception Module
下图的Inception Module包含了几个字模块:

  1. 输入图像28*28*192—>1*1 conv—>输出图像28*28*64
  2. 输入图像28*28*192—>1*1 conv—>3*3 conv—>输出图图像28*28*128
  3. 输入图像28*28*192—>1*1 conv—>5*5 conv—>输出图像28*28*32
  4. 输入图像28*28*192—>3*3 maxpool—>1*1 conv—>输出图像28*28*32
      将所有的输出结构进行channel concat得到一个28*28*256的输出,整个这个流程就是一个Inception module
    吴恩达deeplearning之CNN—深度卷积网络

  Inception network其实即使把多个Inception Module进行堆叠形成的网络结构,网络中还会穿插一些maxpooling操作。还有一些细节就是Inception网络在中间隐藏层会有softmax输出,它们也可以预测图片的分类,它在Inception网络中起到一种调节作用,并能防止网络发生过拟合。[5]
吴恩达deeplearning之CNN—深度卷积网络

6.迁移学习

  如果要做一个计算机视觉的应用,x相比于从头训练权重,下载别人已经训练好的网络结构的权重,作为你训练模型的初始权重,通常能够进展的相当快。
  如果要训练一个三分类的网络,可以从网络上下载已有的网络结构代码,同时也要把网络结构的权重下载下来,比如ImageNet数据集分类的一个网络结构,但是ImageNet有1000多个类别,所以我们需要把输出的softamx单元修改成3个类别。
吴恩达deeplearning之CNN—深度卷积网络
1. 如果有很少的训练数据集
  可以只训练softmax输出单元的参数,冻结其它层的参数,在不同的框架中通常会有trainableParameter或freeze参数来控制要训练的层。由于除了softmax单元外其它的都是固定的参数,所以可以建立一个从输入图像x到softmax单元前**层的映射关系,存储到硬盘上来加速训练。这里训练的就是一个很浅层的网络。
2. 如果有一定数量的训练集
  可以冻结更少层的参数,然后训练后面的层,并把输出层修改成你训练任务对应的输出,也可以把后面层删除换成自己的网络。
3. 如果有足够数量的训练集
   可以仅用先有的参数进行初始化,不冻结任何层。
总的来说,你拥有的数据越多,就可以训练越多的层,极端情况下可以用下载的权重只做初始化。

常用数据集:ImageNet、coco、pascal

7.数据扩充

  大部分的计算机视觉任务使用很多的数据,所以数据增强是常用的方法来提高计算机视觉系统的表现,计算机视觉是相当复杂的工作,需要输入图像的像素值,然后弄清楚图像中有什么,在实践中更多的数据对大多数计算机视觉任务都有帮助,不像其它领域有时候得到充足的数据但是效果并不怎么样,但是计算机视觉的主要问题是没有办法得到充足的数据。
常见的数据增强方法:

仿射变换
2. 垂直镜像对称(mirrors)
对大多数图像镜像对称保留了图像中想要识别的物体。
3. 随机裁剪(random cropping)
随机获取图像的子区域,放在数据集中。随机裁剪并不是一个完美的数据增强方法。
4. 旋转(rotation)
5. 裁剪(shearing)
6. 局部扭转(Local warping)
4,5,6由于实现比较复杂,在实际中应用并不多。
吴恩达deeplearning之CNN—深度卷积网络

色彩转换
通过改变RGB三通道的值,来得到失真的图像,下图
1. R+20,G-20,B+20得到偏紫的图像
2. R-20,G+20,B+20得到偏黄的图像
3. R+5,G+0,B+50使用更多的蓝色,这是根据某种概率分布来决定的,这样做的理由是跟接近阳光色或灯光颜色
这样做使你的算法对颜色更改更具有鲁棒性

  颜色采样的方式有多种,其中一种影响颜色扭曲的算法是PCA,具体颜色改变的细节在AlexNet的论文中,有时候称为PCA颜色增强,大概意思是,比如你的图片呈现紫色,即主要含有红色和蓝色,绿色很少,然后PCA颜色增强算法对红色和蓝色增减多,绿色变化相对少一点,所以使总体颜色保持一致

吴恩达deeplearning之CNN—深度卷积网络

实际处理中的一些流程
吴恩达deeplearning之CNN—深度卷积网络

参考文献

[1] Gradient-based learning applied to document recognition.LeCun et al.1998.
[2] ImageNet classification with deep convolutional neural networks.Krizhevky et al.2012.
[3]Very deep convolutional networks for large-scale image recognition.simonyan et al.2015.
[4]deep residual networks for image recognition. He et al.2015.
[5]Going deeper with Convolutions.Szegedy et al.2014.

相关文章:

  • 2021-12-23
  • 2021-06-30
  • 2021-05-09
  • 2021-11-23
  • 2021-12-27
  • 2021-10-16
  • 2021-08-01
  • 2021-04-29
猜你喜欢
  • 2021-07-30
  • 2021-06-15
  • 2021-07-27
  • 2021-04-02
  • 2021-06-26
  • 2021-12-22
  • 2021-09-09
相关资源
相似解决方案