【发布时间】:2013-11-08 10:59:05
【问题描述】:
我想训练一个回归模型,为此我使用随机森林模型。但是,我还需要进行特征选择,因为我的数据集中有很多特征,我担心如果我使用了所有特征,那么我会过度拟合。为了评估我的模型的性能,我还进行了 5 折交叉验证,我对以下两种方法的问题是正确的,为什么?
1- 我是否应该将数据分成两半,在前半部分进行特征选择,并使用这些选择的特征对剩下的一半进行 5 折交叉验证 (CV)(在这种情况下,5 个 CV 将完全使用相同的选定功能)。
2- 执行以下步骤:
1- 将数据分成 4/5 用于训练和 1/5 用于测试 2-将此训练数据(完整数据的 4/5)分成两半: a-) 在前半部分训练模型并使用训练好的模型进行特征选择。 b-) 使用第一部分中选择的特征在训练数据集的后半部分训练模型(这将是我们最终训练的模型)。 3- 在剩余的 1/5 数据上测试模型的性能(在训练阶段从未使用过) 4- 重复上一步 5 次,每次我们随机(不替换)将数据分成 4/5 用于训练和 1/5 用于测试
我唯一担心的是,在第二个过程中,我们将有 5 个模型,最终模型的特征将是这五个模型的顶级特征的并集,所以我不确定 5CV 的性能是否可以反映最终模型的最终性能,特别是因为最终模型具有与 5fold 中的每个模型不同的特征(因为它是 5 CV 中每个模型的选定特征的并集)
【问题讨论】:
标签: statistics machine-learning feature-extraction feature-selection cross-validation