【发布时间】:2021-06-25 05:25:30
【问题描述】:
我正在学习使用 PyTorch(使用 CIFAR-10 数据集)following this link 进行图像分类。
我正在尝试了解给定 Conv2d 代码的输入和输出参数:
import torch.nn as nn
import torch.nn.functional as F
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(3, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 5 * 5, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 16 * 5 * 5)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
net = Net()
我对@987654324@的理解(如果我错了/遗漏了什么,请纠正):
- 因为图像有 3 个通道,所以第一个参数是
3。6没有过滤器(随机选择) -
5是内核大小 (5, 5)(随机选择) - 同样我们创建下一层(上一层输出是该层的输入)
- 现在使用
linear函数创建一个全连接层: self.fc1 = nn.Linear(16 * 5 * 5, 120)
16 * 5 * 5:这里16是最后一个conv2d层的输出,但是这里面的5 * 5是什么?
这是内核大小吗?或者是其他东西?如何知道我们需要乘以5*5 or 4*4 or 3*3.....
我研究并知道,由于图像大小为32*32,应用 max pool(2) 2 次,所以图像大小将是 32 -> 16 -> 8,所以我们应该乘以 last_ouput_size * 8 * 8 但是在此链接中为5*5。
谁能解释一下?
【问题讨论】:
标签: python deep-learning pytorch conv-neural-network