如何确保 Keras 使用 GPU 和 tensorflow 后端？答案

【问题标题】：How ensure that Keras is using GPU with tensorflow backend?如何确保 Keras 使用 GPU 和 tensorflow 后端？
【发布时间】：2018-10-02 00:17:01
【问题描述】：

我在 Paperspace 云基础架构上创建了虚拟笔记本，后端使用了 Tensorflow GPU P5000 虚拟实例。当我开始训练我的网络时，它的运行速度比我使用纯 CPU 运行时引擎的 MacBook Pro 慢 2 倍。如何确保 Keras NN 在训练过程中使用 GPU 而不是 CPU？

请在下面找到我的代码：

from tensorflow.contrib.keras.api.keras.models import Sequential
from tensorflow.contrib.keras.api.keras.layers import Dense
from tensorflow.contrib.keras.api.keras.layers import Dropout
from tensorflow.contrib.keras.api.keras import utils as np_utils
import numpy as np
import pandas as pd

# Read data
pddata= pd.read_csv('data/data.csv', delimiter=';')

# Helper function (prepare & test data)
def split_to_train_test (data):
    trainLenght = len(data) - len(data)//10

    trainData = data.loc[:trainLenght].sample(frac=1).reset_index(drop=True)
    testData = data.loc[trainLenght+1:].sample(frac=1).reset_index(drop=True)

    trainLabels = trainData.loc[:,"Label"].as_matrix()
    testLabels = testData.loc[:,"Label"].as_matrix()

    trainData = trainData.loc[:,"Feature 0":].as_matrix()
    testData  = testData.loc[:,"Feature 0":].as_matrix()

    return (trainData, testData, trainLabels, testLabels)

# prepare train & test data
(X_train, X_test, y_train, y_test) = split_to_train_test (pddata)

# Convert labels to one-hot notation
Y_train = np_utils.to_categorical(y_train, 3)
Y_test  = np_utils.to_categorical(y_test, 3)

# Define model in Keras
def create_model(init):
    model = Sequential()
    model.add(Dense(101, input_shape=(101,), kernel_initializer=init, activation='tanh'))
    model.add(Dense(101, kernel_initializer=init, activation='tanh'))
    model.add(Dense(101, kernel_initializer=init, activation='tanh'))
    model.add(Dense(101, kernel_initializer=init, activation='tanh'))
    model.add(Dense(3, kernel_initializer=init, activation='softmax'))
    return model

# Train the model
uniform_model = create_model("glorot_normal")
uniform_model.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])
uniform_model.fit(X_train, Y_train, batch_size=1, epochs=300, verbose=1, validation_data=(X_test, Y_test))

【问题讨论】：

How to tell if tensorflow is using gpu acceleration from inside python shell?的可能重复
不确定是否是最好的方法，但创建一个巨大的批次并用它进行训练。如果它带来 OOM 错误，它是 GPU，如果它冻结你的机器，它是 CPU
您可以尝试的另一件事是在声明您的模型之前强制使用：with tf.device('/gpu:0'): 的 GPU 设备。
相同的行为 - 执行速度较慢，当我创建 batch_size=32 甚至 64 时。在纯 CPU 上，比具有相同设置的 MacBook Pro 低两倍
更改代码以使用with tf.device('/gpu:0'): 运行，但与我的 MacBook pro 相比，执行时间仍然很慢...

标签： tensorflow keras gpu

【解决方案1】：

您需要在 TensorFlow 会话中设置 log_device_placement = True 来运行您的网络（下面示例代码中最后一行之前的行。）有趣的是，如果您在会话中设置它，当 Keras 执行配件。所以下面的这段代码（经过测试）确实输出了每个张量的位置。请注意，我已将数据读取短路，因为您的数据不可用，所以我只是用随机数据运行网络。这种方式的代码是独立的，任何人都可以运行。另一个注意事项：如果您从 Jupyter Notebook 运行此程序，log_device_placement 的输出将转到 Jupyter Notebook 启动的终端，而不是笔记本单元格的输出。

from tensorflow.contrib.keras.api.keras.models import Sequential
from tensorflow.contrib.keras.api.keras.layers import Dense
from tensorflow.contrib.keras.api.keras.layers import Dropout
from tensorflow.contrib.keras.api.keras import utils as np_utils
import numpy as np
import pandas as pd
import tensorflow as tf

# Read data
#pddata=pd.read_csv('data/data.csv', delimiter=';')
pddata = "foobar"

# Helper function (prepare & test data)
def split_to_train_test (data):

    return (
        np.random.uniform( size = ( 100, 101 ) ),
        np.random.uniform( size = ( 100, 101 ) ),
        np.random.randint( 0, size = ( 100 ), high = 3 ),
        np.random.randint( 0, size = ( 100 ), high = 3 )
    )

    trainLenght = len(data) - len(data)//10

    trainData = data.loc[:trainLenght].sample(frac=1).reset_index(drop=True)
    testData = data.loc[trainLenght+1:].sample(frac=1).reset_index(drop=True)

    trainLabels = trainData.loc[:,"Label"].as_matrix()
    testLabels = testData.loc[:,"Label"].as_matrix()

    trainData = trainData.loc[:,"Feature 0":].as_matrix()
    testData  = testData.loc[:,"Feature 0":].as_matrix()

    return (trainData, testData, trainLabels, testLabels)

# prepare train & test data
(X_train, X_test, y_train, y_test) = split_to_train_test (pddata)

# Convert labels to one-hot notation
Y_train = np_utils.to_categorical(y_train, 3)
Y_test  = np_utils.to_categorical(y_test, 3)

# Define model in Keras
def create_model(init):
    model = Sequential()
    model.add(Dense(101, input_shape=(101,), kernel_initializer=init, activation='tanh'))
    model.add(Dense(101, kernel_initializer=init, activation='tanh'))
    model.add(Dense(101, kernel_initializer=init, activation='tanh'))
    model.add(Dense(101, kernel_initializer=init, activation='tanh'))
    model.add(Dense(3, kernel_initializer=init, activation='softmax'))
    return model

# Train the model
uniform_model = create_model("glorot_normal")
uniform_model.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])
with tf.Session( config = tf.ConfigProto( log_device_placement = True ) ):
    uniform_model.fit(X_train, Y_train, batch_size=1, epochs=300, verbose=1, validation_data=(X_test, Y_test))

终端输出（部分，太长了）：

...
VarIsInitializedOp_13: (VarIsInitializedOp): /job:localhost/replica:0/task:0/device:GPU:0
2018-04-21 21:54:33.485870: 我 tensorflow/core/common_runtime/placer.cc:884]
VarIsInitializedOp_13: (VarIsInitializedOp)/job:localhost/replica:0/task:0/device:GPU:0
训练/SGD/mul_18/ReadVariableOp: (ReadVariableOp): /job:localhost/replica:0/task:0/device:GPU:0
2018-04-21 21:54:33.485895: 我 tensorflow/core/common_runtime/placer.cc:884]
训练/SGD/mul_18/ReadVariableOp: (ReadVariableOp)/job:localhost/replica:0/task:0/device:GPU:0
训练/SGD/Variable_9/Read/ReadVariableOp: (ReadVariableOp): /job:localhost/replica:0/task:0/device:GPU:0
2018-04-21 21:54:33.485903: 我 tensorflow/core/common_runtime/placer.cc:884]
训练/SGD/Variable_9/Read/ReadVariableOp: (ReadVariableOp)/job:localhost/replica:0/task:0/device:GPU:0
...

注意多行末尾的 GPU:0。

Tensorflow 手册相关页面：Using GPU: Logging Device Placement.

【讨论】：

是的，你说得对 - log_device_placement - 表明我的训练在 GPU 上运行...奇怪的是，在 GPU 上每个 Epoch 需要 230 秒，而在 MacBook 上每个 epoch 只需要 120 秒...
也可以在colab.research.google.com 上试试。确保转到“运行时”，“更改运行时类型”，并将“硬件加速器”设置为 GPU。看看会不会快一点。如果是，那么您使用的服务跟不上速度...
谢谢 Peter，我的代码实际上使用 GPU，但奇怪的是 - GPU 执行速度比 CPU 慢...
也许可以尝试使用与 Paperspace 不同的云提供商，看看是否更好。顺便说一句，Colab 是免费的。可能是 Paperspace 的客户太多，他们的 GPU 负担过重。

【解决方案2】：

把它放在你的 jupyter notebook 的顶部附近。把不需要的东西注释掉。

# confirm TensorFlow sees the GPU
from tensorflow.python.client import device_lib
assert 'GPU' in str(device_lib.list_local_devices())

# confirm Keras sees the GPU (for TensorFlow 1.X + Keras)
from keras import backend
assert len(backend.tensorflow_backend._get_available_gpus()) > 0

# confirm PyTorch sees the GPU
from torch import cuda
assert cuda.is_available()
assert cuda.device_count() > 0
print(cuda.get_device_name(cuda.current_device()))

注意：随着 TensorFlow 2.0 的发布，Keras 现在被包含在 TF API 中。

最初回答是here。

【讨论】：

【解决方案3】：

考虑到keras是tensorflow从2.0版本开始的内置：

import tensorflow as tf
tf.test.is_built_with_cuda()  
tf.test.is_gpu_available(cuda_only = True)

注意：后一种方法可能需要几分钟才能运行。

【讨论】：