【发布时间】:2021-06-03 18:15:21
【问题描述】:
这两个参数nfolds 和train_samples_per_iteration 之间有什么区别,对于确定最佳超参数来说,其中一个参数比另一个参数更重要?
另外,在训练模型之前是否需要扩展训练集和测试集?
将响应变量传输到factor 表单是否重要?
【问题讨论】:
标签: r deep-learning h2o
这两个参数nfolds 和train_samples_per_iteration 之间有什么区别,对于确定最佳超参数来说,其中一个参数比另一个参数更重要?
另外,在训练模型之前是否需要扩展训练集和测试集?
将响应变量传输到factor 表单是否重要?
【问题讨论】:
标签: r deep-learning h2o
nfolds 在您想要进行交叉验证时指定。如果您不进行交叉验证,而是进行训练/有效/测试数据拆分,则可以忽略它。
train_samples_per_iteration 决定评分的频率。默认是让 H2O 决定,这通常是个好主意。仅当您觉得很大一部分训练时间被浪费在过于频繁地为模型评分上,或者在另一个极端情况下,它评分不够频繁(并且错过了提前停止的机会)时才触摸它。
另外,在训练模型之前是否需要扩展训练集和测试集?
不,H2O 将do this by default。
将响应变量转换为因子形式重要吗?
是的。如果响应变量是一组类别之一,请确保 H2O 已将其识别为一个因素。如果它将其识别为数值类型,它将改为构建回归模型。
(它通常会自动执行正确的操作,但如果您的类别是数字,它可能会错过您的意图,例如“0”表示否,“1”表示是。)
【讨论】: