R中聚类的降维（PCA和其他方法）答案

【问题标题】：Dimension Reduction for Clustering in R (PCA and other methods)R中聚类的降维（PCA和其他方法）
【发布时间】：2017-08-31 08:10:49
【问题描述】：

让我先介绍一下：

我对这个问题进行了广泛的研究，并发现了几个有趣的可能性（例如this 和this）。我还研究了主成分分析，并且我看到一些消息来源声称它是一种糟糕的降维方法。但是，我觉得这可能是一个好方法，但不确定如何实现它。我在这个问题上找到的所有资料都给出了很好的解释，但他们很少提供任何形式的建议来实际应用其中一种方法（即如何在 R 中实际应用一种方法）。

所以，我的问题是：有没有一种明确的方法可以在 R 中进行降维？我的数据集包含数字变量和分类变量（具有多个级别）并且非常大（约 40k 观察值，18 个变量（但如果我将分类变量转换为虚拟变量，则为 37 个）。

几点：

如果我们想使用 PCA，那么我必须以某种方式将我的分类变量转换为数字。可以简单地使用虚拟变量方法吗？
对于无监督学习的任何形式的降维，我如何处理序数变量？序数变量的概念在无监督学习中是否有意义？
我对 PCA 的真正问题是，当我执行它并拥有我的主要组件时。我不知道如何处理它们。据我所知，每个主成分都是变量的组合——因此我不确定这如何帮助我们挑选最佳变量。

【问题讨论】：

我不确定这是否属于这里。似乎这个问题更多的是关于如何进行适当的降维分析，这实际上更像是一个统计问题，应该继续 Cross Validated 或 Data Science。如果问题确实是在 R 中进行编码，那么问题应该包括带有示例输入数据的reproducible example（它不应该是您的整个数据集）。尝试将与编程直接相关的部分和不相关的部分分开。

标签： r pca feature-selection dimensionality-reduction

【解决方案1】：

我不认为这是一个 R 问题。这更像是一个统计问题。

PCA 不适用于分类变量。 PCA 依赖于分解协方差矩阵，这对分类变量不起作用。
序数变量在有监督和无监督学习中很有意义。你到底在找什么？如果序数变量没有偏斜并且您有很多级别，则应仅将 PCA 应用于序数变量。
PCA 仅在主成分及其特征值方面为您提供新的转换。它与降维无关。我再说一遍，它与降维无关。只有选择主成分的子集时，才能减少数据集。 PCA 可用于回归、数据可视化、探索性分析等。
一种常见的方法是应用 最佳缩放 来转换您的 PCA 分类变量：

阅读：

http://www.sicotests.com/psyarticle.asp?id=159

您可能还需要考虑对分类变量进行对应分析，对分类变量和连续变量考虑多因素分析。

【讨论】：