【问题标题】:Google Colab RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZEDGoogle Colab RuntimeError:cuDNN 错误:CUDNN_STATUS_NOT_INITIALIZED
【发布时间】:2020-08-20 15:41:10
【问题描述】:

昨天和今天运行我过去几个月运行的相同 Python 笔记本,我收到错误

/usr/local/lib/python3.6/dist-packages/torch/autograd/__init__.py in backward(tensors, grad_tensors, retain_graph, create_graph, grad_variables)
 97     Variable._execution_engine.run_backward(
 98         tensors, grad_tensors, retain_graph, create_graph,
 ---> 99         allow_unreachable=True)  # allow_unreachable flag
100 
101 

RuntimeError: cuDNN error: CUDNN_STATUS_NOT_INITIALIZED

代码中该错误似乎是随机的点,因为它从尝试更改为尝试。根据我的搜索,它看起来是一个兼容性问题。

另外,如果我重新运行单元格,我可能会收到另一个错误,即,

/usr/local/lib/python3.6/dist-packages/torch/utils/data/dataloader.py in __next__(self)
346         data = self._dataset_fetcher.fetch(index)  # may raise StopIteration
347         if self._pin_memory:
--> 348             data = _utils.pin_memory.pin_memory(data)
349         return data
350 

/usr/local/lib/python3.6/dist-packages/torch/utils/data/_utils/pin_memory.py in pin_memory(data)
 53         return type(data)(*(pin_memory(sample) for sample in data))
 54     elif isinstance(data, container_abcs.Sequence):
 ---> 55         return [pin_memory(sample) for sample in data]
 56     elif hasattr(data, "pin_memory"):
 57         return data.pin_memory()

 /usr/local/lib/python3.6/dist-packages/torch/utils/data/_utils/pin_memory.py in <listcomp>(.0)
 53         return type(data)(*(pin_memory(sample) for sample in data))
 54     elif isinstance(data, container_abcs.Sequence):
 ---> 55         return [pin_memory(sample) for sample in data]
 56     elif hasattr(data, "pin_memory"):
 57         return data.pin_memory()

 /usr/local/lib/python3.6/dist-packages/torch/utils/data/_utils /pin_memory.py in pin_memory(data)
 45 def pin_memory(data):
 46     if isinstance(data, torch.Tensor):
 ---> 47         return data.pin_memory()
 48     elif isinstance(data, string_classes):
 49         return data

 RuntimeError: cuda runtime error (700) : an illegal memory access was encountered at /pytorch/aten/src/THC/THCCachingHostAllocator.cpp:278

其他人有同样的问题吗?有人解决了吗,怎么解决的?

【问题讨论】:

  • 你能分享一个能重现问题的独立笔记本吗?

标签: python google-colaboratory


【解决方案1】:

最后,我解决了这个问题。

  1. 在我的代码中的某处,我使用了 CrossEntropyLoss 函数,其 ignore_index 参数为 ignore_index = my_ignore_index。错误地,我有 my_ignore_index = -1 作为值,它不是我的数据的有效值; -1 从未出现在我的数据值中。更新正确解决了问题。这解决了“...遇到非法内存访问...”错误。

  2. 我所做并帮助解决问题的另一件事是使用更新版本的 anaconda3。这解决了CUDNN_STATUS_NOT_INITIALIZED 错误。

希望对你有帮助。

【讨论】:

    猜你喜欢
    • 2021-06-09
    • 1970-01-01
    • 2021-06-06
    • 1970-01-01
    • 2020-09-15
    • 2021-03-24
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多