主成分分析 - 是否删除特征？ [关闭]答案

【问题标题】：Principal component analysis - remove features or not? [closed]主成分分析 - 是否删除特征？ [关闭]
【发布时间】：2021-04-19 23:07:16
【问题描述】：

当我将 PCA 应用于我的数据集时，PC1 仅占 25% 的变化，而 PC2 约占 22%。

当我应用随机森林或任何其他机器学习模型时，我是否仍会根据 PCA 输出否定一些轻度相关的变量？还是只有在 PC1 和 PC2 解释了数据集中大约 80% 的变化时才应该这样做？

【问题讨论】：

我投票结束这个问题，因为它不是关于 help center 中定义的编程，而是关于 ML 理论/方法。

标签： machine-learning pca

【解决方案1】：

我不确定我是否清楚地了解了你的问题。无论如何，我想您想使用 PCA 来提高模型的性能：因此，您应该尝试不同的值并保持使验证集上考虑的指标最大化的组件数量（可能通过交叉验证），几乎与您获得的解释方差的实际数值无关。后者可以让您很好地了解正确的数字可能是多少，但出于监督学习的目的，根据您的特定数据集尝试和选择会更有意义。

如果您的意思是如果您可以根据 PCA 的结果丢弃 原始特征，那么答案肯定是否定的。相对于原始特征，主要组件“存在”在不同的空间中，您无法直接说出每个组件的特征。如果您想从 PCA 中获得一些东西，您必须对组件执行后续训练/预测并忘记原始特征。

【讨论】：