基于决策树的模型可以预测未来吗？答案

【问题标题】：Can decision tree based model predict future?基于决策树的模型可以预测未来吗？
【发布时间】：2020-07-14 01:13:08
【问题描述】：

我正在尝试构建一个模型来预测每个月、每周和每天的发货量。我发现基于决策树的模型比线性回归效果更好。

但我阅读了一些关于机器学习的文章，其中说基于决策树的模型无法预测未来哪个模型没有学习。（外推问题）

所以我认为这意味着如果数据分布在训练数据的日期之间，模型可以很好地预测，但如果数据的日期超出范围，则不能。

我想确认我的理解是否正确。一些帖子显示了使用随机森林模型对基于日期时间的数据的预测，这让我感到困惑。

如果有任何方法可以克服基于决策树的模型的外推问题，请告诉我。

【问题讨论】：

我对决策树并不是特别熟悉，但总的来说：这真的取决于你在建模什么。为了知道你的模型是否可以预测未来，你需要知道未来。

标签： machine-learning random-forest decision-tree extrapolation

【解决方案1】：

这取决于数据。决策树预测[训练数据类值最小值，训练数据类值最大值]范围内的任何样本的类值。例如，假设有五个样本 [(X1, Y1), (X2, Y2), ..., (X5, Y5)]，训练好的树有两个决策节点。第一节点N1包括(X1，Y1)、(X2，Y2)，另一个节点N2包括(X3，Y3)、(X4，Y4)和(X5，Y5)。然后，当样本达到 N1 时，树将预测一个新样本为 Y1 和 Y2 的均值，但当样本达到 N2 时，它将预测一个新样本为 Y3、Y4、Y5 的男性。

因此，如果新样本的类值可能大于训练数据类值的最大值或小于训练数据类值的最小值，不建议使用决策树。否则，基于树的模型（例如随机森林）表现出良好的性能。

【讨论】：

【解决方案2】：

这里可能有不同形式的外推问题。如前所述，用于分类的经典决策树只能预测其在训练/创建过程中遇到的值。从这个意义上说，您不会预测任何以前看不见的值。如果您让分类器预测相对更新而不是绝对值，则可以解决此问题。但是您需要对您的数据有一些了解，以确定哪种方法最适合不同的情况。用于回归的决策树也是类似的情况。

“外推”的下一个问题是，如果您的训练数据的统计数据随时间发生变化，决策树可能会表现不佳。同样，我建议预测更新关系。否则，基于最近过去的训练数据的预测可能会产生更好的预测。由于无法以在线方式训练单个决策树，因此您必须每 x 个时间步创建一个新的决策树。

比这更进一步，我想说你会开始思考状态机并尝试使用你的分类器进行状态预测。但这是我上次检查时决策树的一个相当未知的理论领域。如果您已经为您的数据关系建立了一些 for of 模型，这将更有效。

【讨论】：