1. 大体综述
    a. 在传统神经网络的深度和宽度上,增加出一个新的维度,称为“cardinality”,原文解释为“the size of the set of transformations“,实际上就是每层分成的组数。
    b. 网络主体看上去非常像ResNet,思路上借鉴了InceptionNet的 “split-transform-merge ”和VGG的将相同大小的卷积层堆叠的思路。
    c. 文章核心提出“increasing cardinality is a more effective way of gaining accuracy than going deeper or wider",也就是他们增加的这个维度非常厉害,比深度和广度都重要,后续的实验证明了这句话。
    d. 最后在各个数据集的测试结果,表明了正确率和速度上优于传统的ResNet。

  2. 网络结构和核心部分
    a. 首先我们来看一下普通的ResNet和此文中的结构对比:
    ResNeXt论文笔记
    ResNeXt论文笔记

  3. 问题就来了,从表面上看,通道数增加了两倍,为什么参数却完全没有增加很多呢。我们以第一幅图的结构来举个栗子:
    a. 普通的参数是这样的:2566411+646433+6425611 = 69632
    b. 新结构是这样的:(256
    114+4334+411256)*32 = 70144

  4. 那么为什么这样进行分割也能work呢,作者以全连接层为例:
    ResNeXt论文笔记
    ResNeXt论文笔记
    我们对这个形式进行一个扩展:
    ResNeXt论文笔记
    那么将卷积看做一个函数代入,就得到了本文模块的结构。

  5. 在设计各个模块时,遵循由VGG/ResNet启示的规则:
    a. 对于产生相同大小的特征图的模块,使用完全相同的超参数。
    b. 每次降采样时,网络的广度翻倍,这样保证了对于每个模块的计算复杂度相近。
    所以我们只需要简单的设计出一个模板模块,其他层的结构也就能确定下来了。

  6. 和相关模型的区别:
    a. Inception:本文模型多个分支都采用了完全相同的拓扑结构,减少了设计每条支路的困难。
    b. Grouped Convolutions:这个实际上时AlexNet训练时用的多Gpu训练的方法。经过实验,下图展现的三个结构实际是完全一样的。最后的实现采用的是第三种结构,因为他实现的更加的简洁且快速。
    ResNeXt论文笔记

  7. 模型性能
    ResNeXt论文笔记
    ResNeXt论文笔记

a. 显然,同样的深度和复杂度下,ResNeXt有者更高的正确率,而且ResNeXt-101就达到了超越ResNext-200的性能。

相关文章:

  • 2021-10-10
  • 2021-06-30
  • 2021-08-11
  • 2021-03-26
  • 2021-05-15
  • 2021-09-13
  • 2021-05-15
  • 2021-06-28
猜你喜欢
  • 2021-03-31
  • 2021-09-15
  • 2021-05-15
  • 2022-01-20
  • 2021-11-04
  • 2021-10-14
相关资源
相似解决方案