我只是写了一个 vgg16 但它不起作用答案

【问题标题】：I simply wrote a vgg16 but it doesn't work我只是写了一个 vgg16 但它不起作用
【发布时间】：2022-01-06 11:05:48
【问题描述】：

我自己用 pytorch 编写了一个用于二进制分类的 vgg16，我发现它的输出对于同一批次中的输入是相同的，在反向传播之后输出发生变化，但对于同一批次中的数据仍然相同。我不知道为什么会这样。我在 torchvision 中尝试了 vgg16，它对于相同的数据集非常有效。所以我确定我的模型存在一些问题。

这是我自己模型的代码：

class VGG16(torch.nn.Module):
    def __init__(self):
        super(VGG16, self).__init__()
        self.conv1 = torch.nn.Conv2d(3, 64, padding=(1,1), kernel_size=(3,3))              #kernel
        self.conv2 = torch.nn.Conv2d(64, 64, padding=(1,1), kernel_size=(3,3))
        self.conv3 = torch.nn.Conv2d(64, 128, padding=(1,1), kernel_size=(3,3))
        self.conv4 = torch.nn.Conv2d(128, 128, padding=(1,1), kernel_size=(3,3))
        self.conv5 = torch.nn.Conv2d(128, 256, padding=(1,1), kernel_size=(3,3))
        self.conv6 = torch.nn.Conv2d(256, 256, padding=(1,1), kernel_size=(3,3))
        self.conv7 = torch.nn.Conv2d(256, 256, padding=(1,1), kernel_size=(3,3))
        self.conv8 = torch.nn.Conv2d(256, 512, padding=(1,1) ,kernel_size=(3,3))
        self.conv9 = torch.nn.Conv2d(512, 512, padding=(1,1), kernel_size=(3,3))
        self.conv10 = torch.nn.Conv2d(512, 512, padding=(1,1), kernel_size=(3,3))
        self.conv11 = torch.nn.Conv2d(512, 512, padding=(1,1), kernel_size=(3,3))
        self.conv12 = torch.nn.Conv2d(512, 512, padding=(1,1), kernel_size=(3,3))
        self.conv13 = torch.nn.Conv2d(512, 512, padding=(1,1), kernel_size=(3,3))
        self.pooling = torch.nn.MaxPool2d(2)                                        # pool
        self.fc1 = torch.nn.Linear(25088, 4096)                                     # 7 * 7 * 512 = 25088
        self.fc2 = torch.nn.Linear(4096, 4096)
        self.fc3 = torch.nn.Linear(4096, 2)
        self.Avgpool = torch.nn.AdaptiveAvgPool2d((7, 7))
        self.ReLU = nn.ReLU(True)
        #self.Drop = nn.Dropout()

    def forward(self,x):
        batch_size = x.size(0)
        x = self.conv1(x)
        x = self.ReLU(x)                                                #layer1
        x = self.pooling(self.ReLU(self.conv2(x)))                                  #layer2
        x = self.ReLU(self.conv3(x))                                                #layer3
        x = self.pooling(self.ReLU(self.conv4(x)))                                  #layer4
        x = self.ReLU(self.conv5(x))                                                #layer5
        x = self.ReLU(self.conv6(x))                                                #layer6
        x = self.pooling(self.ReLU(self.conv7(x)))                                  #layer7
        x = self.ReLU(self.conv8(x))                                                #layer8
        x = self.ReLU(self.conv9(x))                                                #layer9
        x = self.pooling(self.ReLU(self.conv10(x)))                                 #layer10
        x = self.ReLU(self.conv11(x))                                               #layer11
        x = self.ReLU(self.conv12(x))                                               #layer12
        x = self.pooling(self.ReLU(self.conv13(x)))                                 #layer13
        x = self.Avgpool(x)
        #x = x.view(batch_size,-1)                                               
        x = torch.flatten(x, 1)                                                   #flatten
        #print(x.shape)                                                           #for Debug
        #print(x)

        x = self.ReLU(self.fc1(x))
        #x = self.Drop(x)
        x = self.ReLU(self.fc2(x))
        #x = self.Drop(x)
        x = self.fc3(x)
        #x = F.sigmoid(x)
        return x

以下是同一批次的输出情况： outputs for a batch, outputs for another batch

这个问题困扰了我好几天，如果你能指出我的错误，我将不胜感激。

以下是标签为 0 的一些输入： input1,input2 input3 标签为 1 的输入： input4,input5 input6

【问题讨论】：

请提供minimal reproducible example。
好的，我已经上传了 6 张输入图片，你可以设置 bs = 3 来查看模型的行为（输出相同）
VGG 是一个相当大的模型，因为您使用 ReLU，因此数据可能会在一个或多个层中归零。你训练了多长时间？
10 个 epoch 2-3 小时。我用ReLU是因为torchvision中的vgg16用的，我的vgg16和torchvision中的几乎一样，但是不行。
请澄清您的具体问题或提供其他详细信息以准确突出您的需求。正如目前所写的那样，很难准确地说出你在问什么。

标签： machine-learning pytorch conv-neural-network vgg-net

【解决方案1】：

def _initialize_weights(self):
    for m in self.modules():
        if isinstance(m, nn.Conv2d):
            nn.init.kaiming_normal_(
                m.weight, mode='fan_out', nonlinearity='relu')
            if m.bias is not None:
                nn.init.constant_(m.bias, 0)
        elif isinstance(m, nn.Linear):
            nn.init.normal_(m.weight, 0, 0.01)
            nn.init.constant_(m.bias, 0)

我遇到了同样的错误，试试这个，它对我有用，在 __init__ 中调用这个函数

【讨论】：