【发布时间】:2022-01-22 00:38:10
【问题描述】:
我有一个由许多 csv 文件组成的数据集。每个文件包含一系列日期和一个数字,每个文件都是一个独立的系列,而不是它之前的文件的其余部分,目标是预测未来每个单独 csv 的下一个日期和与之关联的数字.我想使用 LSTM 来解决这个问题,但我不知道如何将数据提供给它。
这里是数据样本:
| year | month | day | amount |
|---|---|---|---|
| 2020 | 09 | 06 | 12.50 |
| 2020 | 09 | 10 | 12.50 |
| 2020 | 09 | 19 | 124.00 |
| 2020 | 10 | 2 | 13.06 |
| 2020 | 10 | 06 | 12.50 |
目前我编写了一些代码来将数据分为训练和测试(按文件名和 75% 到 25% 的比例)。代码如下:
INPUT_DATA_DIR = "dir/"
TRAIN_DATA_COEFFICIENT = 0.75
files = []
for (dirpath, dirnames, filenames) in os.walk(INPUT_DATA_DIR):
files.extend(filenames)
break
train_files_finish = int(len(files) * TRAIN_DATA_COEFFICIENT)
train_files = files[0:train_files_finish]
validation_files = files[train_files_finish:len(files)]
【问题讨论】:
标签: python dataframe keras time-series lstm