【问题标题】:cuda lstm unspecified launch failure errorcuda lstm 未指定的启动失败错误
【发布时间】:2020-12-23 18:15:58
【问题描述】:

我有 Nvidia GTX 1050 卡,我的 cuda 版本是 10.1,我有 cuDNN 7.6.5,每当我尝试运行 LSTM 单元时,都会引发一堆错误

这是我的代码:

model = Sequential()
model.add(LSTM(64, input_shape=(x_train.shape[1], x_train.shape[2]), return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(64, return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(64, return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(32))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation='softmax'))
model.compile(optimizer='adam', loss='mse')


model.fit(x_train, y, epochs=5, batch_size=16)

这是我的 tensorflow 版本和完整的 Traceback:

In [2]: tf.__version__
Out[2]: '2.3.0'

追溯:

 Epoch 1/100
    2020-09-04 15:27:30.033120: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library cublas64_10.dll
    2020-09-04 15:27:31.436246: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library cudnn64_7.dll
     27255/261088 [==>...........................] - ETA: 51:45 - loss: 0.01302020-09-04 15:33:38.188521: E tensorflow/stream_executor/dnn.cc:616] CUDNN_STATUS_INTERNAL_ERROR
    in tensorflow/stream_executor/cuda/cuda_dnn.cc(1892): 'cudnnRNNForwardTraining( cudnn.handle(), rnn_desc.handle(), model_dims.max_seq_length, input_desc.handles(), input_data.opaque(), input_h_desc.handle(), input_h_data.opaque(), input_c_desc.handle(), input_c_data.opaque(), rnn_desc.params_handle(), params.opaque(), output_desc.handles(), output_data->opaque(), output_h_desc.handle(), output_h_data->opaque(), output_c_desc.handle(), output_c_data->opaque(), workspace.opaque(), workspace.size(), reserve_space.opaque(), reserve_space.size())'
    2020-09-04 15:33:38.191709: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
    2020-09-04 15:33:38.273883: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:220] Unexpected Event status: 1
    2020-09-04 15:33:38.256027: W tensorflow/core/framework/op_kernel.cc:1767] OP_REQU

【问题讨论】:

    标签: python tensorflow lstm


    【解决方案1】:

    您一次向模型发送了多少数据? 在我看来,你需要调整你的 batch_size。对我来说,看起来你一次向你的 gpu 输入了太多数据,导致 cuda 崩溃。你的测序有多大?你的gpu的内存分配是多少?但是,如果没有关于数据的更多信息以及 cuda 和 cudnn 是否正确安装,很难提供更清晰的解决方案

    【讨论】:

      猜你喜欢
      • 2012-12-20
      • 2012-10-21
      • 2016-08-29
      • 2012-04-11
      • 1970-01-01
      • 2013-07-04
      • 2011-09-27
      • 2018-03-02
      • 1970-01-01
      相关资源
      最近更新 更多