【发布时间】:2019-01-29 19:08:38
【问题描述】:
我想通过交叉验证进行一些预处理(缩放、特征工程,例如目标编码)。我知道最好的和理论上正确的方法是为交叉验证的每个训练/测试步骤分别预处理数据。
但是,我使用的是 H2O,除非我弄错了,否则我无法创建预处理管道。
h2o documentation page on target encoding 提供了一种解决方法,以避免从训练折叠泄漏到验证折叠:“目标平均值是根据折叠数据计算的,以防止过度拟合。”因此,对给定折叠的预处理会从该折叠中排除数据。
在我看来,这避免了从训练样本到测试样本的泄漏,但相反的情况似乎并不正确。
我可以安全地使用这种解决方法(提供#observations >> #features)还是应该寻找另一个允许预处理管道的框架(或手动进行交叉验证)?
【问题讨论】:
标签: cross-validation h2o feature-extraction