R：使用 PCA 数据训练随机森林答案

【问题标题】：R: training random forest using PCA dataR：使用 PCA 数据训练随机森林
【发布时间】：2019-07-20 04:42:22
【问题描述】：

我有一个名为 Data 的数据集，具有 30 个缩放和居中的特征和 1 个列名为 OUTCOME 的结果，引用了 70 万条记录，以 data.table 格式存储。我计算了它的 PCA，并观察到它的前 8 个分量占方差的 95%。我想在h2o 中训练一个随机森林，所以我就是这样做的：

Data.pca=prcomp(Data,retx=TRUE) # compute the PCA of Data
Data.rotated=as.data.table(Data.pca$x)[,c(1:8)] # keep only first 8 components
Data.dump=cbind(Data.rotated,subset(Data,select=c(OUTCOME))) # PCA dataset plus outcomes for training

这样我就有了一个数据集Data.dump，其中我有 8 个在 PCA 组件上旋转的特征，并且在每条记录中我都关联了它的结果。

第一个问题：这是理性的吗？还是我必须以某种方式置换结果向量？还是这两件事无关？

然后我将Data.dump 分成两组，Data.train 用于训练，Data.test 用于测试，全部为as.h2o。我将它们喂给随机森林：

rf=h2o.randomForest(training_frame=Data.train,x=1:8,y=9,stopping_rounds=2,
                    ntrees=200,score_each_iteration=T,seed=1000000)
rf.pred=as.data.table(h2o.predict(rf,Data.test))

发生的情况是 rf.pred 似乎与原始结果 Data.test$OUTCOME 不太相似。我也尝试训练一个神经网络，甚至没有收敛，导致 R 崩溃。

第二个问题：是不是因为我在 PCA 治疗中犯了一些错误？还是因为我错误地设置了随机森林？还是我只是在处理烦人的数据？

我不知道从哪里开始，因为我是数据科学的新手，但工作流程对我来说似乎是正确的。

非常感谢。

【问题讨论】：

标签： r random-forest pca h2o

【解决方案1】：

您的第二个问题（即“是数据，还是我做错了什么”）的答案很难知道。这就是为什么您应该始终尝试首先创建基线模型的原因，以便您了解数据的可学习性。

基线可以是h2o.glm()，和/或它可以是h2o.randomForest()，但无论哪种方式都没有PCA步骤。（您没有说您是在进行回归还是分类，即OUTCOME 是数字还是因子，但 glm 和随机森林都可以工作。）

关于您的第一个问题：是的，这是合理的做法，不，您不必（事实上，不应该）涉及结果向量。

回答第一个问题的另一种方法是：不，这不合理。可能是随机森林可以看到所有关系本身，而无需您使用 PCA。请记住，当您使用 PCA 来减少输入维度的数量时，您也会丢掉一些信号。您说 8 个分量仅捕获 95% 的方差。因此，您正在丢弃一些信号以换取更少的输入，这意味着您正在以牺牲预测质量为代价来优化复杂性。

顺便说一句，连接原始输入和您的 8 个 PCA 组件是另一种方法：您可能通过向它提供有关数据的提示来获得更好的模型。（但你可能不会，这就是为什么在尝试这些更奇特的想法之前首先获得一些基线模型是必不可少的。）

【讨论】：

非常感谢。与此同时，我一直在尝试并自己解决这个问题，因为终于有办法了，但我不明白随机森林基本上可以执行一种隐式 PCA。这实际上与方法的范围有关。