用于预测的时间训练测试拆分

【问题标题】：Temporal train-test split for forecasting用于预测的时间训练测试拆分
【发布时间】：2020-06-14 15:26:12
【问题描述】：

我知道这可能是一个基本问题，但我想知道我是否正在使用火车，测试拆分是否正确。

假设我有到 2019 年结束的数据，我想预测未来 5 年的值。

我制作的图表如下：

我的训练数据从 1996-2014 年开始，我的测试数据从 2014-2019 年开始。测试数据与训练数据完全吻合。然后，我使用这些测试数据进行了 2019-2024 年的预测。

这是正确的方法吗，还是我的预测也应该像测试数据一样是从 2014 年到 2019 年？

【问题讨论】：

【解决方案1】：

测试/验证数据对您评估要使用的预测器很有用。一旦你决定使用哪个模型，你应该用整个数据集 1996-2019 训练模型，这样你就不会丢失 2014-2019 年可能有价值的知识。考虑到在处理时间序列时，通常序列的较新部分在您的预测中比序列的旧值更重要。

【讨论】：

但可能会导致模型过拟合
如果您选择了正确的模型和参数，则应该不会。您应该使用训练/测试数据来微调和调整模型，以便在不过度拟合的情况下获得最佳性能。我不知道您使用的是哪种机器学习技术，但是，例如，如果您有一个 RNN，您尝试不同的训练参数，您会发现使用 50 个 epoch 可以获得很好的结果，但是使用 100 个 epoch 它开始过度拟合，您应该在训练最终模型时考虑这些知识。我们假设它会有类似的行为