【问题标题】:LSTM Initial state from Dense layer来自密集层的 LSTM 初始状态
【发布时间】:2018-01-12 20:15:20
【问题描述】:

我在时间序列数据上使用lstm。我有与时间无关的时间序列特征。想象一下该系列的公司股票以及非时间序列特征中的公司位置之类的东西。这不是用例,但它是相同的想法。对于这个例子,我们只预测时间序列中的下一个值。

所以一个简单的例子是:

feature_input = Input(shape=(None, data.training_features.shape[1]))
dense_1 = Dense(4, activation='relu')(feature_input)
dense_2 = Dense(8, activation='relu')(dense_1)

series_input = Input(shape=(None, data.training_series.shape[1]))
lstm = LSTM(8)(series_input, initial_state=dense_2)
out = Dense(1, activation="sigmoid")(lstm)

model = Model(inputs=[feature_input,series_input], outputs=out)
model.compile(loss='mean_squared_error', optimizer='adam', metrics=["mape"])

但是,我只是不确定如何正确指定列表中的初始状态。我明白了

ValueError: An initial_state was passed that is not compatible with `cell.state_size`. Received `state_spec`=[<keras.engine.topology.InputSpec object at 0x11691d518>]; However `cell.state_size` is (8, 8)

我可以看到是由 3d 批量尺寸引起的。我尝试使用 Flatten、Permutation 和 Resize 图层,但我不认为这是正确的。我缺少什么以及如何连接这些层?

【问题讨论】:

  • 您对这种方法有什么参考吗?我正在尝试实现类似的东西(用其他数据初始化 RNN),我很惊讶我没有找到一个好的参考。

标签: python machine-learning keras


【解决方案1】:

第一个问题是LSTM(8) 层需要两个初始状态h_0c_0,每个维度为(None, 8)。这就是错误消息中“cell.state_size is (8, 8)”的意思。

如果你只有一个初始状态dense_2,也许你可以切换到GRU(只需要h_0)。或者,您可以将 feature_input 转换为两个初始状态。

第二个问题是h_0c_0 的形状为(batch_size, 8),但您的dense_2 的形状为(batch_size, timesteps, 8)。在使用dense_2作为初始状态之前,您需要处理时间维度。

因此,也许您可​​以将输入形状更改为 (data.training_features.shape[1],) 或使用 GlobalAveragePooling1D 在时间步长上取平均值。

一个可行的例子是:

feature_input = Input(shape=(5,))
dense_1_h = Dense(4, activation='relu')(feature_input)
dense_2_h = Dense(8, activation='relu')(dense_1_h)
dense_1_c = Dense(4, activation='relu')(feature_input)
dense_2_c = Dense(8, activation='relu')(dense_1_c)

series_input = Input(shape=(None, 5))
lstm = LSTM(8)(series_input, initial_state=[dense_2_h, dense_2_c])
out = Dense(1, activation="sigmoid")(lstm)
model = Model(inputs=[feature_input,series_input], outputs=out)
model.compile(loss='mean_squared_error', optimizer='adam', metrics=["mape"])

【讨论】:

  • 这一行“第一个问题是 LSTM(8) 层需要两个初始状态 h_0 和 c_0,每个维度 (None, 8)。这就是“cell.state_size 是 ( 8, 8)”在错误消息中。”理解initial_state 非常重要,但它不在 tf 的文档中!谢谢!