在 H2O 中训练 RMSE 高于 Validation RMSE答案

【问题标题】：Training RMSE higher than Validation RMSE in H2O在 H2O 中训练 RMSE 高于 Validation RMSE
【发布时间】：2018-11-26 08:46:10
【问题描述】：

我正在使用 H2O 深度学习模型来解决回归问题。我观察到的是训练 RMSE 高于验证 RMSE。我正在使用具有默认参数的模型，该参数是两个隐藏层，每个隐藏层有 200 个神经元，没有 l1/l2 正则化。激活是整流器。没有添加 Dropout。

我想知道如何调整两个超参数以获得低于验证 RMSE 的训练 RMSE？

参数有什么提示吗？

我正在使用单独的训练集、验证集和测试集。训练数据有 1958826 个样本，验证集和测试集各有 599380 个样本。

R 平方值在 0.65 - 0.7 左右

编辑：虽然我遇到的验证 RMSE 低于训练 RMSE，但训练中残差偏差的值似乎低于验证。所以这看起来不错。

编辑：训练：均方根误差：0.3592 偏差：0.0071

验证：均方根误差：0.3403 偏差：0.0082

我正在做分位数回归（如果有帮助的话）并且我有单独的训练/测试数据集，同时我将测试集拆分为验证并使用 h2o-split_frame-method 进行测试。

【问题讨论】：

你能发布你得到的火车和有效集合的均方根误差和剩余偏差吗？您是如何拆分数据的（是随机拆分吗？）。你认为你的验证数据集能代表你的训练集吗？
@Lauren 我更新了帖子。
以后请不要重复发帖：stats.stackexchange.com/questions/378660/…
@Lauren 好的，谢谢。但是添加的信息对您有帮助吗？你有答案吗？
抱歉延迟回复。很难说为什么您会看到这些结果，尤其是因为差异很小。我会看一下您的每个特征的分布，以及验证集中的特征分布与火车相比是否存在明显差异。也许有一些关于分裂的东西使有效集合更容易预测。如果您使用不同的种子进行多次试验，您是否见过有效的优于训练的训练？以下是有关调整的更多信息：github.com/h2oai/h2o-tutorials/tree/master/tutorials/…

【解决方案1】：

以下是一些您可以尝试的建议。

在您的回归问题中，较少的 epoch 可能是导致训练性能较差的原因。

【讨论】：