使用预训练的 vgg16 模型的 CUDNN 错误答案

【问题标题】：CUDNN error using pretrained vgg16 model使用预训练的 vgg16 模型的 CUDNN 错误
【发布时间】：2018-03-05 14:22:32
【问题描述】：

我正在尝试提取 VGG16 模型中最后一层的激活。为此，我在模型上使用了装饰器，如下所示。

当我将一个 cuda 张量传递给模型时，我得到一个 CUDNN_STATUS_INTERNAL_ERROR 并带有以下回溯。

有人知道我哪里出错了吗？

追溯：

  File "/media/data1/iftachg/frame_glimpses/parse_files_to_vgg.py", line 80, in get_activation
    return model(image)
  File "/media/data1/iftachg/miniconda2/lib/python2.7/site-packages/torch/nn/modules/module.py", line 206, in __call__
    result = self.forward(*input, **kwargs)
  File "/media/data1/iftachg/frame_glimpses/partial_vgg.py", line 24, in forward
    x = self.vgg16.features(x)
  File "/media/data1/iftachg/miniconda2/lib/python2.7/site-packages/torch/nn/modules/module.py", line 206, in __call__
    result = self.forward(*input, **kwargs)
  File "/media/data1/iftachg/miniconda2/lib/python2.7/site-packages/torch/nn/modules/container.py", line 64, in forward
    input = module(input)
  File "/media/data1/iftachg/miniconda2/lib/python2.7/site-packages/torch/nn/modules/module.py", line 206, in __call__
    result = self.forward(*input, **kwargs)
  File "/media/data1/iftachg/miniconda2/lib/python2.7/site-packages/torch/nn/modules/conv.py", line 237, in forward
    self.padding, self.dilation, self.groups)
  File "/media/data1/iftachg/miniconda2/lib/python2.7/site-packages/torch/nn/functional.py", line 39, in conv2d
    return f(input, weight, bias)
RuntimeError: CUDNN_STATUS_INTERNAL_ERROR

类：

class partial_vgg(nn.Module):

    def __init__(self):
        super(partial_vgg, self).__init__()
        self.vgg16 = models.vgg16(pretrained=True).cuda()
        for param in self.vgg16.parameters():
            param.requires_grad = False

    def forward(self, x):

        x = self.vgg16.features(x)
        x = x.view(x.size(0), -1)
        for l in list(self.vgg16.classifier.children())[:-3]:
            x = l(x)
        return x

【问题讨论】：

不确定你的错误，但我认为可能有更简单的方法来做你想做的事情。看看我的回答，它解释了如何使用预训练模型并从中构建新模型/仅提取其中的一部分来构建新模型：stackoverflow.com/questions/44146655/…

标签： pytorch

【解决方案1】：

显然 cudnn 错误非常无用，代码本身没有问题 - 只是我试图访问的 GPU 已经在使用中。

【讨论】：

【解决方案2】：

这看起来像是一个张量整形错误。如上所述，CUDNN 错误消息几乎是无用的。要获得更直观的错误消息，请在 CPU 上运行您的代码。

net.cpu()

【讨论】：