一篇搞定卷积神经网络

卷积神经网络

不知道什么是卷积神经网络？没关系，大家应该用过淘宝的拍立淘吧，根据你照片识别出相似的商品，原理中就用到了卷积神经网络。它能根据你的一张图片提取特征，从而识别物体。当然卷积神经网络不仅在图像识别大有作为，接下来进入正题，揭开卷积神经网络的面纱。

why convolution?

1.参数相比神经网络这样的全连接少太多了！有效地避免了过拟合。

2.具有平移不变性，提取特征能力很强

卷积神经网络分为：卷积，池化，全连接这三个主要的部分。

1.卷积操作

先来个简单的，请仔细看图

一篇搞定卷积神经网络

我们选择一张6*6*1（1为通道数，这里是1）的图像，让它和3*3的卷积核进行卷积操作，最后得出4*4*1的一张图像。

input image	filter	stride	output image
661	331	1	441

Q1:-5怎么得到的？

如上图，对应元素依次内积，最后相加。

Q2:怎么得到卷积后的图像？

一篇搞定卷积神经网络

1.1 填充（padding）

保持图像不会变得太小
保留图像边缘信息

将图像边缘围上一圈，p=1

input image	padding	filter	stride	output image
661	1	331	1	661

1.2 步长（stride）

相当于等差数列中的公差，从左到右从上至下依次走stride个步长。

举例

一个filter

一篇搞定卷积神经网络

现实生活中图像的通道都不是一个的，这里我们采用一张RGB（彩色图片）这里我们采用了一个filter（卷积核），输出了图像的一个特征，如垂直特征

input image	padding	filter	stride	output image
663	0	333	1	441

两个filter

一篇搞定卷积神经网络

两个卷积核，输出了两个特征

input image(hwc)	padding	filter(hwc)	stride	output image
663	0	333	1	442
663		333	1	442

卷积层

现在使用多个卷积层对数据进行训练

一篇搞定卷积神经网络

卷积操作完成后进行全连接，当成神经网络处理就可以啦。

input image(hwc)	padding	filter(nhw*c)	stride	output image
39393	0	1033*3	1	373710
373710	0	2055*10	2	171720
171720	0	4055*20	2	7740

2.池化操作

why pooling?

提取部分图像的最大特征
池化分为max pooling和average pooling

2.1 Max pooling

一篇搞定卷积神经网络

我们取图像对应卷积大小位置的局部最大值

input image(hwc)	padding	filter(hwc)	stride	output image
441	0	221	2	221

2.2 Average pooling

一篇搞定卷积神经网络

我们取图像对应卷积大小位置的平均值

input image(hwc)	padding	filter(hwc)	stride	output image
441	0	221	2	221

3.完整的卷积神经网络

一篇搞定卷积神经网络

input image(hwc)	padding	filter(nhw*c)	stride	output image
32323	0	conv1 655*3	1	28286
28286	0	max pooling 122*6	2	14146
14146	0	conv2 1655*6	1	101016
101016	0	max pooling 2216	2	5516

总结：

一篇搞定卷积神经网络

参考

https://www.zhihu.com/question/52668301/answer/131573702

https://study.163.com/my#/smarts

input image(hwc)	padding	filter(hwc)	stride	output image
663	0	333	1	442
663		333	1	442

input image(hwc)	padding	filter(nhw*c)	stride	output image
39393	0	1033*3	1	373710
373710	0	2055*10	2	171720
171720	0	4055*20	2	7740

input image(hwc)	padding	filter(nhw*c)	stride	output image
32323	0	conv1 655*3	1	28286
28286	0	max pooling 122*6	2	14146
14146	0	conv2 1655*6	1	101016
101016	0	max pooling 2216	2	5516