【问题标题】:Tensorflow model.fit() reproducibilityTensorFlow model.fit() 可重复性
【发布时间】:2021-03-13 04:40:54
【问题描述】:
import tensorflow as tf

RANDOM_SEED_CONSTANT = 42  # FOR_REPRODUCIBILITY
tf.random.set_seed(RANDOM_SEED_CONSTANT)

# Prevent NHWC errors https://www.nuomiphp.com/eplan/en/50125.html
from tensorflow.keras import backend as K
K.set_image_data_format("channels_last")

from tensorflow import keras
from tensorflow.keras import datasets, layers, models

(train_images, train_labels), (test_images, test_labels) = datasets.cifar10.load_data()
train_images, test_images = train_images / 255.0, test_images / 255.0 # Normalize pixel values to be between 0 and 1

# Create a simple CNN
model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.Flatten())
model.add(layers.Dense(64, 
                       activation='relu', 
                       kernel_initializer=tf.keras.initializers.HeNormal(seed=RANDOM_SEED_CONSTANT)))
model.add(layers.Dense(10, 
                       kernel_initializer=tf.keras.initializers.HeNormal(seed=RANDOM_SEED_CONSTANT)))

print(model.summary())

model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])

model.save_weights('myweights.h5')

# Run1
history = model.fit(train_images, train_labels, epochs=1, 
                    shuffle=False,
                    validation_data=(test_images, test_labels))

# Run2
model.load_weights('myweights.h5')
history = model.fit(train_images, train_labels, epochs=1, 
                    shuffle=False,
                    validation_data=(test_images, test_labels))

# Run3
model.load_weights('myweights.h5')
history = model.fit(train_images, train_labels, epochs=1, 
                    shuffle=False,
                    validation_data=(test_images, test_labels))

以上 3 次 model.fit() 调用给了我以下结果:

1563/1563 [==============================] - 7s 4ms/step - loss: 1.4939 - accuracy: 0.4543 - val_loss: 1.2516 - val_accuracy: 0.5567

1563/1563 [==============================] - 6s 4ms/step - loss: 1.6071 - accuracy: 0.4092 - val_loss: 1.3857 - val_accuracy: 0.4951

1563/1563 [==============================] - 7s 4ms/step - loss: 1.5538 - accuracy: 0.4325 - val_loss: 1.3187 - val_accuracy: 0.5294

造成这种差异的原因是什么?我正在尝试了解可能阻碍从模型中复制结果的来源。除了随机种子、密集层初始化之外,我还缺少什么?

【问题讨论】:

    标签: tensorflow keras deep-learning tensorflow2.x


    【解决方案1】:

    您测试再现性的方式不正确。您需要关闭程序并重新运行它以查看结果是否相同。否则,运行 2 取决于运行 1 期间发生的事件,而运行 3 取决于运行 1 和 2 期间发生的事件。

    原因是 Tensorflow 维护了一个用于随机生成的内部计数器,如 tf.random.set_seed 的文档中所述(强调是我的):

    print(tf.random.uniform([1], seed=1))  # generates 'A1'
    print(tf.random.uniform([1], seed=1))  # generates 'A2'
    

    我们在上面第二次调用 tf.random.uniform 时得到 'A2' 而不是 'A1' 的原因是 TensorFlow 使用相同的 tf.random.uniform 内核(即内部表示)进行所有调用相同的参数,内核维护一个内部计数器,每次执行时都会递增,产生不同的结果。

    如果我只运行你的程序的第一次运行两次,在每次运行之间关闭程序(在这种情况下在 IPython 中),我得到:

    In [1]: run program.py
    1563/1563 [==============================] - 13s 8ms/step - loss: 1.4997 - accuracy: 0.4540 - val_loss: 1.2528 - val_accuracy: 0.5494
    {'loss': [1.4996991157531738], 'accuracy': [0.4540199935436249], 'val_loss': [1.2527965307235718], 'val_accuracy': [0.5493999719619751]}
    In [2]: run program.py
    1563/1563 [==============================] - 12s 8ms/step - loss: 1.4997 - accuracy: 0.4540 - val_loss: 1.2528 - val_accuracy: 0.5494
    {'loss': [1.4996991157531738], 'accuracy': [0.4540199935436249], 'val_loss': [1.2527965307235718], 'val_accuracy': [0.5493999719619751]}
    

    减去执行计算所花费的时间,这可能会根据机器上的负载而有所不同,结果完全相同。

    【讨论】:

    • 我正在尝试总结您的答案。因此,“tf.random.set_seed()”确保我们在每个程序运行期间的第一个函数调用中获得相同的结果。在单个程序运行期间重复调用具有相同参数的相同函数时期望相同​​的结果是我的错误。正确的?需要注意的是,在您共享的同一文档页面中,它声明“调用 tf.random.set_seed() 将重置任何此类计数器”。这有点误导。
    • 顺便说一句,我只运行了 2 次相同的代码,只有第一次调用 model.fit(),我得到了 {'loss': [1.487397313117981], 'accuracy': [0.4600600004196167], 'val_loss': [1.2456825971603394], 'val_accuracy': [0.5546000003814697]} 对于第二次程序运行,{'loss': [1.4882723093032837], 'accuracy': [0.46059998869895935], 'val_loss': [1.25975501537323], 'val_accuracy': [0.5461000204086304]}
    • ` “调用 tf.random.set_seed() 将重置任何此类计数器”。这有点误导`是的,我同意这是误导,但稍后在页面中对此进行了解释,“当多个相同的随机操作被包装在一个 tf.function 中时,它们的行为会发生变化,因为这些操作不再共享相同的计数器。 "这有点隐藏在 Keras 抽象背后,但您的模型创建就是这种情况。
    • 至于您的第二条评论,即使查看history.history 我得到的值完全相同。
    猜你喜欢
    • 2021-05-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-04-07
    • 2020-09-16
    • 2022-01-07
    相关资源
    最近更新 更多