【问题标题】:What does recurrent_initializer do?循环初始化器做什么?
【发布时间】:2020-12-17 04:52:49
【问题描述】:

我正在使用 tensorflow 和 keras 中的循环神经网络层进行试验,并且正在研究循环初始化器。我想进一步了解它对层的影响,所以我创建了一个 SimpleRnn 层,如下所示:

rnn_layer = keras.layers.SimpleRNN(1, return_sequences=True, kernel_initializer = keras.initializers.ones, recurrent_initializer=keras.initializers.zeros, activation="linear")

运行此代码,使循环网络中的添加可见:

inp = np.zeros(shape=(1,1,20), dtype=np.float32)
for i in range(20):
    inp[0][0][:i] = 5
    #inp[0][0][i:] = 0
    
    print(f"i:{i} {rnn_layer(inp)}"'')

输出:

i:0 [[[0.]]]
i:1 [[[5.]]]
i:2 [[[10.]]]
i:3 [[[15.]]]
i:4 [[[20.]]]
i:5 [[[25.]]]
i:6 [[[30.]]]
i:7 [[[35.]]]
i:8 [[[40.]]]
i:9 [[[45.]]]
i:10 [[[50.]]]
i:11 [[[55.]]]
i:12 [[[60.]]]
i:13 [[[65.]]]
i:14 [[[70.]]]
i:15 [[[75.]]]
i:16 [[[80.]]]
i:17 [[[85.]]]
i:18 [[[90.]]]
i:19 [[[95.]]]

现在我将recurrent_initializer 更改为不同的东西,例如glorot_normal 分布:

rnn_layer = keras.layers.SimpleRNN(1, return_sequences=True, kernel_initializer = keras.initializers.ones, recurrent_initializer=keras.initializers.glorot_normal(seed=0), activation="linear")

但我仍然得到相同的结果。我认为这可能取决于一些逻辑,缺少 Rnn 但 LSTM 有,所以我用 lstm 尝试了它,但结果仍然相同。我想有一些关于经常性逻辑的东西,我仍然想念。谁能解释一下,recurent_initializers 的目的是什么以及它如何影响循环层?

非常感谢!

【问题讨论】:

    标签: tensorflow keras deep-learning recurrent-neural-network


    【解决方案1】:

    你对 RNN 层的输入是形状 (1, 1, 20),这意味着每个批次有一个 Timestep,RNN 的默认行为是在每个批次之间重置状态,所以你看不到循环的效果操作(recurrent_initializers)。 您必须更改输入序列的长度:

    inp = np.ones(shape=(5 ,4,1), dtype=np.float32) # sequence length == 4
    rnn_layer1 = tf.keras.layers.LSTM(1,return_state=True, return_sequences=False, 
               kernel_initializer = tf.keras.initializers.ones, 
               recurrent_initializer=tf.keras.initializers.zeros, activation="linear")
    rnn_layer2 = tf.keras.layers.LSTM(1,return_state=True , return_sequences=False, 
               kernel_initializer = tf.keras.initializers.ones, 
               recurrent_initializer=tf.keras.initializers.glorot_normal(seed=0), 
               activation="linear")
    
    first_sample = inp[0 : 1 , : ,:  ] #shape(1,4,1)
    print(rnn_layer1(first_sample )
    print(rnn_layer2(first_sample )
    

    【讨论】:

    • 自己找到了解决方案,还是非常感谢您的解释!我现在将对其进行更多实验以更好地理解它,您的回答将对我有很好的帮助
    猜你喜欢
    • 2019-09-05
    • 2019-01-11
    • 1970-01-01
    • 1970-01-01
    • 2012-11-02
    • 1970-01-01
    • 2018-02-19
    • 2019-08-07
    • 1970-01-01
    相关资源
    最近更新 更多