主成分分析与特征去除答案

【问题标题】：Principal component analysis vs feature removal主成分分析与特征去除
【发布时间】：2016-02-22 05:42:40
【问题描述】：

我对机器学习还很陌生，刚刚被介绍到主成分分析作为一种降维方法。我不明白，在哪种情况下，PCA 比简单地从模型中删除一些特征更好？如果目标是获得低维数据，我们为什么不将那些相关的特征分组并保留每组中的一个特征？

【问题讨论】：

这是一个很好的问题，但它更适合 CrossValidated，它是 StackOverflow 的 stats/ML 兄弟。

标签： machine-learning principal-components

【解决方案1】：

特征减少（例如 PCA）和 特征选择（您所描述的）之间存在根本区别。关键的区别在于特征缩减 (PCA) 通过所有原始维度的一些投影将您的数据映射到较低维度，例如 PCA 使用每个维度的线性组合。所以最终的数据嵌入具有来自所有特征的信息。如果您执行特征选择您丢弃信息，您将完全失去那里存在的任何东西。此外，PCA 保证您保留给定的数据方差部分。

【讨论】：

据我了解，使用 PCA 我们消除了相关的维度，即线性相关的维度。也就是说，投影所有这些维度似乎并没有保留更多信息，而不仅仅是丢弃它们......我错过了什么吗？
这与 PCA 无关。 Pca 寻找保留大部分方差的线性投影。它不会“消除”任何维度。