Densely Connected Convolutional Networks(2017)

Densely Connected Convolutional Networks(2017)
1、为什么要做这个研究（理论走向和目前缺陷） ?
Resnet的直接sum可能会阻碍信息流动。减轻梯度消失，增强特征传播，减参数。
2、他们怎么做这个研究（方法，尤其是与之前不同之处） ?
设计DenseNet，跟resnet主要不同就是改直接Sum为concatenate和前馈密集连接。
3、发现了什么（总结结果，补充和理论的关系）?
参数少，效果好，特征重用，减少过拟合，深层训练无压力。

摘要：最近已经有研究（resnet）表明在接近输出与输入的地方进行直连可以提高模型性能（更准更高效）。本文提出DenseNet,能够以前馈的方式将网络的每一层直连到之后的每一层。传统的连接就是一层一层向下连，有L层就有L个连接。DenseNet共有L(L+1)/2个连接。
DenseNet优点：减轻梯度消失问题，增强信息传递，增强特征重用，大量减少参数量，还能减少过拟合。

1引言
已经有很多论文中的模型结构都有直连的思想，如ResNet, Highway Network,Fractalnets等。
与resnet区别：DenseNet,能够以前馈的方式将网络的每一层直连（concatenate）到之后的每一层，而ResNet是通过相加（summation）进行直连。DenseNet的第L层有前面所有卷积层输出的特征共计L个输入源。
有一些ResNet的变种证明有许多层实际对模型性能没有提升，完全可以删掉。
DenseNet很狭窄，每层只有12个滤波器。
Densely Connected Convolutional Networks(2017)
2、相关研究
直连（sum）：Highway Networks, ResNets.使网络更深。
连接（concatenate）：GoogLeNet, FractalNes.使网络更宽。

增加网络的深度或者宽度能够提取到更有表现力的特征，但是也更来更多参数。DenseNet力求特征重用，实现更有表现力的特征提取，并且不加计算量和参数（更易训练）。改resnet中应用的sum直连为denseNet中的concatenate，能够增加变动（variation）,且提高效率。

3 DenseNets
ResNet中用的summation,虽然能够直接传递梯度，但是可能会阻碍信息流动。
Dense connectivity:改summation为concatenate，网络结构如图1.
Composite function(组合函数) HL(·)：就是一个层的组成。由BN+ReLU+33Conv组成。
Pooling layers:当特征图大小变化时，就没办法直接Concatenate了，故下采样。DenseNet依据下采样层分割成多个Dense blocks。把dense blocks之间的层叫做transition layers（过渡层），由bn+11conv+22pooling组成。如下图。

Growth rate(增长率):组合函数HL产生k个通道的特征图，第l层共有k0 + k(l-1)个通道的特征图输入。其中k0是输入层的通道数。增长率即为k，即使k很小（默认k=12），性能也sota。解释是每一层都能直通前面所有层的特征（即共同知识“collective knowledge”）。每一层都新加入k个通道的fm到共同知识里。增长率k就代表每一层带多少新的信息到共同知识里。
瓶颈层（Bottleneck layers）.尽管每一层只产生k个通道的输出，但是输入通道数却很大。故采用11卷积降维，这样组合函数就成了BN-ReLU-Conv(1× 1)-BN-ReLU-Conv(3×3) 。实验中让11卷积降维到4k个通道的fm输出。
Compression(压缩) 如果一个dense block包含m个fm(即m个通道的fm),在过渡层进行降维到θk个fm。θ<1,实验中θ设为0.5。同时用瓶颈层和压缩时，记模型为DenseNet-BC。
实验细节 3个dense blocks，每一个都有形同数目的卷积层。进入第一个dense block之前有16个fm（对于DenseNet-BC有2*k个fm）。
DenseNet-BC有4个dense blocks。设计细节略。

4 实验
实验结果：
Densely Connected Convolutional Networks(2017)
4.1 数据集
CIFAR：
SVHN:
ImageNet

4.2 训练
超参设置：SGD
Densely Connected Convolutional Networks(2017)

4.3 在CIFAR和SVHN上的分类结果
准确率：
容量：跟压缩和瓶颈层相关。
参数效率：
过拟合：附带效果，更不容易过拟合。

4.4 在ImageNet上的分类结果
主要跟resnet比，超参设置跟resnet完全一样（此超参适合resnet但不是最适合densenet）,densenet参数更少。
Densely Connected Convolutional Networks(2017)

5 讨论
从表面上看DenseNet跟ResNet特别像，仅有一点小改动却带来许多优点：
模型紧凑：参数少，效果好。
隐藏的深度监督：更多直连，更好监督，更好训练。
随机直连(stochastic depth） vs 确定直连（denseNet）:
特征重用：做了个看不懂的实验。如下图：
Densely Connected Convolutional Networks(2017)

6 结论
提出densenet,参数少，效果好，特征重用，减少过拟合，深层训练无压力。