一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）

VGG网络结构详解与模型的搭建

简单介绍VGG

模型结构

经常用的是16层结构????13层个卷积层以及3个全连接层

亮点

网络亮点：通过堆叠多个3x3 的卷积核来以替代大尺度卷积核（减少所需参数）

感受野

概念

一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）

例子

一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）

感受野计算公式

一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）
也就是说我们特征层3中的一个单元就相当于我们原图中的5*5的感受视野

为什么论文中说堆叠两个3x3的卷积核代替5x5的卷积核，堆叠三个3x3的卷积核替代7x7的卷积核？
在VGG网络中卷积核的步距（stride）是默认为 1 的
可以经过计算得到
一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）
目的：减少网络中训练参数的个数
同样可以通过计算证明

一个C是卷积核的深度就是有多层卷积，还有一个C是卷积核的个数，（因为这里假设的输入输出channel相同，所以输出的特征矩阵也是C
一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）

VGG16

参数使用

一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）

卷积层

通过这个参数设定的卷积层输出的高度和宽度不变：
由计算可以算得
一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）
我们设定的卷积核的大小就是 3*3
out =（ in - 3 + 2 ）/ 1 + 1 = in

下采样层

通过这个参数设定的下采样层输出的高度和宽度直接缩小为原来的一半：
out =（ in - 2 + 0 ）/ 2 + 1 = in / 2

基本结构

16 weight layers
Input （224x224 RGB images）

两层3x3的卷积核+ReLU
Maxpool最大下采样层

三层3x3的卷积核+ReLU
Maxpool最大下采样层

连接两个全连接层+ReLU
一层全连接层

加上一个soft-max处理进行**
一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）
（2层）由于采用的卷积核conv3-64 的深度是64 所以输出的特征矩阵宽和高不变深度变成64
22422464
由于采用的下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是64 11211264
（2层）后面又是卷积核conv3-128的深度是128 所以输出的特征矩阵宽和高不变深度变成128
112112128
下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是128
5656128
（三层）卷积核conv3-256的深度是256 所以输出的特征矩阵宽和高不变深度变成256
5656256
下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是256
2828256
（三层）卷积核conv3-512的深度是512 所以输出的特征矩阵宽和高不变深度变成512
2828512
下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是512
1414512
（三层）卷积核conv3-512的深度是512 所以输出的特征矩阵宽和高不变深度变成512
1414512
下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是512
77512
（三层）全连接层
FC-4096（ReLU）
FC-4096（ReLU）
FC-1000

一位深度学习小萌新的学渣笔记深度学习神经网络+pytorch框架+图像检索(三）

VGG网络结构详解与模型的搭建

简单介绍VGG

模型结构

亮点

感受野

概念

例子

感受野计算公式

VGG16

参数使用

卷积层

下采样层

基本结构

model.py中代码解读

train.py代码解读

predict.py