【问题标题】:Dimension Reduction for Clustering in R (PCA and other methods)R中聚类的降维(PCA和其他方法)
【发布时间】:2017-08-31 08:10:49
【问题描述】:

让我先介绍一下:

我对这个问题进行了广泛的研究,并发现了几个有趣的可能性(例如thisthis)。我还研究了主成分分析,并且我看到一些消息来源声称它是一种糟糕的降维方法。但是,我觉得这可能是一个好方法,但不确定如何实现它。我在这个问题上找到的所有资料都给出了很好的解释,但他们很少提供任何形式的建议来实际应用其中一种方法(即如何在 R 中实际应用一种方法)。

所以,我的问题是:有没有一种明确的方法可以在 R 中进行降维?我的数据集包含数字变量和分类变量(具有多个级别)并且非常大(约 40k 观察值,18 个变量(但如果我将分类变量转换为虚拟变量,则为 37 个)。

几点:

  • 如果我们想使用 PCA,那么我必须以某种方式将我的分类变量转换为数字。可以简单地使用虚拟变量方法吗?

  • 对于无监督学习的任何形式的降维,我如何处理序数变量?序数变量的概念在无监督学习中是否有意义?

  • 我对 PCA 的真正问题是,当我执行它并拥有我的主要组件时。我不知道如何处理它们。据我所知,每个主成分都是变量的组合——因此我不确定这如何帮助我们挑选最佳变量。

【问题讨论】:

  • 我不确定这是否属于这里。似乎这个问题更多的是关于如何进行适当的降维分析,这实际上更像是一个统计问题,应该继续 Cross ValidatedData Science。如果问题确实是在 R 中进行编码,那么问题应该包括带有示例输入数据的reproducible example(它不应该是您的整个数据集)。尝试将与编程直接相关的部分和不相关的部分分开。

标签: r pca feature-selection dimensionality-reduction


【解决方案1】:

我不认为这是一个 R 问题。这更像是一个统计问题。

  • PCA 不适用于分类变量。 PCA 依赖于分解协方差矩阵,这对分类变量不起作用。
  • 序数变量在有监督和无监督学习中很有意义。你到底在找什么?如果序数变量没有偏斜并且您有很多级别,则应仅将 PCA 应用于序数变量。
  • PCA 仅在主成分及其特征值方面为您提供新的转换。它与降维无关。我再说一遍,它与降维无关。只有选择主成分的子集时,才能减少数据集。 PCA 可用于回归、数据可视化、探索性分析等。
  • 一种常见的方法是应用 最佳缩放 来转换您的 PCA 分类变量:

阅读:

http://www.sicotests.com/psyarticle.asp?id=159

您可能还需要考虑对分类变量进行对应分析,对分类变量和连续变量考虑多因素分析

【讨论】:

    猜你喜欢
    • 2018-08-27
    • 2017-08-28
    • 2013-12-31
    • 2020-06-28
    • 2013-09-30
    • 2019-07-21
    • 1970-01-01
    • 2016-04-14
    • 2021-04-04
    相关资源
    最近更新 更多