cuda lstm 未指定的启动失败错误答案

【问题标题】：cuda lstm unspecified launch failure errorcuda lstm 未指定的启动失败错误
【发布时间】：2020-12-23 18:15:58
【问题描述】：

我有 Nvidia GTX 1050 卡，我的 cuda 版本是 10.1，我有 cuDNN 7.6.5，每当我尝试运行 LSTM 单元时，都会引发一堆错误

这是我的代码：

model = Sequential()
model.add(LSTM(64, input_shape=(x_train.shape[1], x_train.shape[2]), return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(64, return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(64, return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(32))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation='softmax'))
model.compile(optimizer='adam', loss='mse')


model.fit(x_train, y, epochs=5, batch_size=16)

这是我的 tensorflow 版本和完整的 Traceback：

In [2]: tf.__version__
Out[2]: '2.3.0'

追溯：

 Epoch 1/100
    2020-09-04 15:27:30.033120: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library cublas64_10.dll
    2020-09-04 15:27:31.436246: I tensorflow/stream_executor/platform/default/dso_loader.cc:48] Successfully opened dynamic library cudnn64_7.dll
     27255/261088 [==>...........................] - ETA: 51:45 - loss: 0.01302020-09-04 15:33:38.188521: E tensorflow/stream_executor/dnn.cc:616] CUDNN_STATUS_INTERNAL_ERROR
    in tensorflow/stream_executor/cuda/cuda_dnn.cc(1892): 'cudnnRNNForwardTraining( cudnn.handle(), rnn_desc.handle(), model_dims.max_seq_length, input_desc.handles(), input_data.opaque(), input_h_desc.handle(), input_h_data.opaque(), input_c_desc.handle(), input_c_data.opaque(), rnn_desc.params_handle(), params.opaque(), output_desc.handles(), output_data->opaque(), output_h_desc.handle(), output_h_data->opaque(), output_c_desc.handle(), output_c_data->opaque(), workspace.opaque(), workspace.size(), reserve_space.opaque(), reserve_space.size())'
    2020-09-04 15:33:38.191709: E tensorflow/stream_executor/cuda/cuda_event.cc:29] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
    2020-09-04 15:33:38.273883: F tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc:220] Unexpected Event status: 1
    2020-09-04 15:33:38.256027: W tensorflow/core/framework/op_kernel.cc:1767] OP_REQU

【问题讨论】：

标签： python tensorflow lstm

【解决方案1】：

您一次向模型发送了多少数据？在我看来，你需要调整你的 batch_size。对我来说，看起来你一次向你的 gpu 输入了太多数据，导致 cuda 崩溃。你的测序有多大？你的gpu的内存分配是多少？但是，如果没有关于数据的更多信息以及 cuda 和 cudnn 是否正确安装，很难提供更清晰的解决方案

【讨论】：