纠错方法时间序列预测答案

【问题标题】：Error Correction methodologies Time Series Forecast纠错方法时间序列预测
【发布时间】：2015-10-30 18:52:08
【问题描述】：

您对纠正预测偏差有任何读数建议吗？例如，我使用 ARIMA 模型来预测时间序列。有没有办法根据回测结果来纠正预测的偏差？

【问题讨论】：

欢迎来到 StackOverflow 的世界。您可能已经看到一些版主“热衷于”惩罚帖子，这些帖子不符合 StackOverflow 的最低完整可验证代码示例（又名 MCVE 相关问题）标准。您可能会选择更新/编辑您的问题以符合这种做法（最好在任何此类不利影响发生之前）。最好的办法是阅读 StackOverflow 的注意事项和不注意事项，以了解社区规则的设置，并找到自己的方式，如何在其中生活。 无论如何，享受成为 StackOverflow 的新贡献成员

【解决方案1】：

如何处理所有存在的`Bias` / `Overfit` 斗争？

使用战术方法：

对此的一种主要方法是通过两步方法系统地调整 Predictor（无论是 ARIMA 还是其他）。

您必须将可用的 DataSET 分成两部分，以便模拟接近“未来”，并“隐藏”——比如说大约 20-30% 的观察结果——DataSET 的第二部分[1] Training 并在称为 CrossValidation 预测的步骤 [2] 中使用它。

这种方法允许搜索 Predictor 引擎配置的 StateSPACE 和与数据相关的偏差/过拟合。有些只使用最小化搜索的前一部分（最低错误/最高效用函数），有些只使用后者（如 Leo Breiman 的 RandomForest 对基于集成的方法的修改），有些则同时使用。

在aTrainingSubPartOfAvailableDataSET 上训练预配置的 Predictor
一旦这样的 Predictor 配置得到训练，cross-validate 该配置预测 aCrossValidationSubPartOfAvailableDataSET 的能力在训练过程中未见（步骤 1. ) 观察 Bias / Overfit 人工制品并继续朝着合理配置设置的最低交叉验证错误/最佳泛化区域前进.

【讨论】：

谢谢！。我正在通过回测练习（如遗漏练习）进行交叉验证。然后运行模拟（如测试数据集）。所以我把数据分成了3个部分。但我想知道。如果仅使用错误度量是正确的方法。我应该能够预测一些预测错误。我说这排除了置信区间。
@donpresente 哦，是的，这绝对是可能的。一旦您的方法保持公平，aTrainingSubPartOfAvailableDataSET 之间的分离过程用于初始训练和模拟样本外示例的部分以用于验证目的以获得最佳学习者（具有泛化能力的预测器），可以使用 Hoeffding 不等式，这正是限制了这种训练有素的预测器未来预测的错误。
绑定得很紧吗？不假设错误是高斯的吗？
Hoeffding bound 为样本外示例预测将导致大于某个“可容忍”阈值的错误的概率制定上限。没有关于其分布的假设，但逐渐降低这种概率的确定性是收紧的“武器”
你在 Python 中使用过statsmodels.sourceforge.net 吗？我没有尝试。因为我只使用 python 进行文本挖掘或分类问题。