【问题标题】:training an LSTM from multiple csv files从多个 csv 文件训练 LSTM
【发布时间】:2022-01-22 00:38:10
【问题描述】:

我有一个由许多 csv 文件组成的数据集。每个文件包含一系列日期和一个数字,每个文件都是一个独立的系列,而不是它之前的文件的其余部分,目标是预测未来每个单独 csv 的下一个日期和与之关联的数字.我想使用 LSTM 来解决这个问题,但我不知道如何将数据提供给它。

这里是数据样本:

year month day amount
2020 09 06 12.50
2020 09 10 12.50
2020 09 19 124.00
2020 10 2 13.06
2020 10 06 12.50

目前我编写了一些代码来将数据分为训练和测试(按文件名和 75% 到 25% 的比例)。代码如下:

INPUT_DATA_DIR = "dir/"
TRAIN_DATA_COEFFICIENT = 0.75

files = []

for (dirpath, dirnames, filenames) in os.walk(INPUT_DATA_DIR):
    files.extend(filenames)
    break

train_files_finish = int(len(files) * TRAIN_DATA_COEFFICIENT)
train_files = files[0:train_files_finish]
validation_files = files[train_files_finish:len(files)]

【问题讨论】:

    标签: python dataframe keras time-series lstm


    【解决方案1】:

    如果您不知道从哪里开始,请查看https://www.tensorflow.org/tutorials/structured_data/time_series,它涵盖了最基本的内容。

    csv 文件的数量无关紧要,您可以随时连接数据以准备建模。

    【讨论】:

    • 每个 csv 文件都独立于其他文件。我想我需要进一步澄清我的答案。谢谢你的链接!
    【解决方案2】:

    您不应连接独立时间序列的数据集。最佳解决方案实际上取决于许多因素,包括每个数据集的大小、每个数据集的重要性和/或相关性、基于为每个数据集获取数据的过程等。

    如果您至少有一个足够大且具有洞察力的数据集,那么使用它来训练您的模型可能是您的第一步。

    【讨论】:

      猜你喜欢
      • 2021-11-16
      • 1970-01-01
      • 2020-12-15
      • 2023-03-03
      • 1970-01-01
      • 1970-01-01
      • 2019-04-23
      • 2018-01-08
      • 2016-01-25
      相关资源
      最近更新 更多