【问题标题】:Temporal train-test split for forecasting用于预测的时间训练测试拆分
【发布时间】:2020-06-14 15:26:12
【问题描述】:

我知道这可能是一个基本问题,但我想知道我是否正在使用火车,测试拆分是否正确。

假设我有到 2019 年结束的数据,我想预测未来 5 年的值。

我制作的图表如下:

我的训练数据从 1996-2014 年开始,我的测试数据从 2014-2019 年开始。测试数据与训练数据完全吻合。然后,我使用这些测试数据进行了 2019-2024 年的预测。

这是正确的方法吗,还是我的预测也应该像测试数据一样是从 2014 年到 2019 年?

【问题讨论】:

    标签: machine-learning time-series


    【解决方案1】:

    测试/验证数据对您评估要使用的预测器很有用。一旦你决定使用哪个模型,你应该用整个数据集 1996-2019 训练模型,这样你就不会丢失 2014-2019 年可能有价值的知识。考虑到在处理时间序列时,通常序列的较新部分在您的预测中比序列的旧值更重要。

    【讨论】:

    • 但可能会导致模型过拟合
    • 如果您选择了正确的模型和参数,则应该不会。您应该使用训练/测试数据来微调和调整模型,以便在不过度拟合的情况下获得最佳性能。我不知道您使用的是哪种机器学习技术,但是,例如,如果您有一个 RNN,您尝试不同的训练参数,您会发现使用 50 个 epoch 可以获得很好的结果,但是使用 100 个 epoch 它开始过度拟合,您应该在训练最终模型时考虑这些知识。我们假设它会有类似的行为
    猜你喜欢
    • 2020-12-16
    • 2021-06-28
    • 2021-11-23
    • 2019-05-10
    • 2021-01-14
    • 2018-12-21
    • 1970-01-01
    • 2019-03-16
    • 2019-07-21
    相关资源
    最近更新 更多