Keras LSTM 的输入转换答案

【问题标题】：Input Transformation for Keras LSTMKeras LSTM 的输入转换
【发布时间】：2019-04-20 22:32:07
【问题描述】：

我正在做一个项目，试图加深我对 LSTM 网络的理解。我正在按照这篇博文here 中概述的步骤进行操作。我的数据集如下所示：

    Open    High    Low Close   Volume
Date                    
2014-04-21  197.080002  206.199997  194.000000   
204.380005  5258200
2014-04-22  206.360001  219.330002  205.009995   
218.639999  9804700
2014-04-23  216.330002  216.740005  207.000000   
207.990005  7295600
2014-04-24  210.809998  212.800003  203.199997   
207.860001  5495200
2014-04-25  202.000000  206.699997  197.649994   
199.850006  6996700

如您所见，这是 TSLA 股票走势的小快照。

我了解使用 LSTM，需要将这些数据重塑为三个维度：

批量大小
时间步长
功能

我最初的想法是使用某种中等批量大小（以实现最佳泛化）。此外，回顾 10 天的历史作为时间步长。开盘价、最高价、最低价、成交量、收盘价等特征。

这是我有点卡住的地方。我有两个具体问题：

将数据分解为新表示（转换）的方法是什么？
我们如何将其拆分为训练集、测试集和验证集？我无法准确地概念化正在分解的内容。我最初的想法是使用 sklearn：

train_test_split()

但这似乎不适用于这种情况。

显然，一旦数据被转换然后拆分，就很容易构建 Keras 模型。这只是调用 fit.(data) 的问题。

任何建议或资源（指向正确的方向）将不胜感激。

我当前的代码是：

from sklearn.model_selection import train_test_split 

# Split the Data into Training and Testing Data
tsla_train, tsla_test = train_test_split(tsla)

tsla_train.shape
tsla_test.shape

from sklearn.preprocessing import MinMaxScaler

# Scale the Data
scaler = MinMaxScaler()

scaler.fit(tsla_train)

tsla_train_scaled = scaler.transform(tsla_train)
tsla_test_scaled = scaler.transform(tsla_test)

# Define the parameters of the model

batch_size = 20

# Set the model to look back on four days of historical data and 
try to predict the fifth
time_steps = 10

from keras.models import Sequential
from keras.layers import LSTM, Dense

lstm_model = Sequential()

在here这个帖子里找到了一些解释。

【问题讨论】：

标签： python keras lstm recurrent-neural-network

【解决方案1】：

train_test_split 函数在这里确实不会给出预期的结果。它假定每一行都是一个独立的数据点，但事实并非如此，因为您使用的是单个时间序列。

最常见的选择是使用较早的数据点进行训练，使用较晚的数据点进行测试（如果适用，中间的一系列点进行验证），这将给您提供与使用所有数据点相同的结果训练集中最后一天可用于训练的数据，并实际用于接下来几天的预测。

拆分数据集后，我们的想法是，每个训练批次都需要为随机选择的一组日期范围提供输入和相应的输出，其中每个输入是所选的历史数据天数 (即days × features，全批次为batch size × days × features），输出只是第二天的数据，

希望这有助于了解该过程背后的一些直觉。您链接的文章包含您需要的大多数代码的示例 - 它会非常密集，但我建议您尝试逐行了解它所做的一切，甚至可能只是逐字输入。

【讨论】：