【发布时间】:2018-12-30 01:37:02
【问题描述】:
我正在使用随机森林。我的测试准确率为 70%,而训练准确率为 34%?该怎么办 ?我该如何解决这个问题。
【问题讨论】:
-
欢迎来到 SO。请更具体并显示代码和数据。
标签: machine-learning regression random-forest
我正在使用随机森林。我的测试准确率为 70%,而训练准确率为 34%?该怎么办 ?我该如何解决这个问题。
【问题讨论】:
标签: machine-learning regression random-forest
Test 准确度不应高于train,因为该模型针对后者进行了优化。这种行为可能发生的方式:
您没有使用相同的源数据集进行测试。您应该进行适当的训练/测试拆分,其中它们都具有相同的基础分布。很可能您为test提供了一个完全不同(并且更受欢迎)的数据集
应用了不合理的高度 regularization。即使如此,也需要一些“测试数据分布与训练数据分布不同”的元素才能发生观察到的行为。
【讨论】:
首先,您应该检查用于训练的数据。我认为数据有问题,数据可能没有经过适当的预处理。
此外,在这种情况下,您应该尝试更多的 epoch。绘制学习曲线以分析模型何时收敛。
您应该检查以下内容:
【讨论】: