【发布时间】:2019-01-23 15:32:59
【问题描述】:
我正在尝试对具有大量噪音的金融数据集运行聚类分析 (PAM)。
有超过 100 个变量,其中许多是高度共线的。
考虑到噪声和共线性的数量,在整个列数组上运行聚类算法几乎是荒谬的,我不希望使用 PCA,因为我最终会得到组件而不是每个集群的现有变量范围,我计划进一步分析。
在评估一组定义的变量(例如 10 个变量)的聚类趋势(霍普金统计量)时,我可以确定聚类是否可行。我的问题是,是否有一种方法可以在每个可能的组中循环 hopkin 的统计数据,比如 10 个变量,这样我就可以在具有最佳 hopkin 统计数据的组上运行聚类算法,等等。
我可能对此不太满意,但我们不胜感激。
【问题讨论】:
-
choose(100,10)说这是不切实际的。 -
对替代方案有什么想法吗?
-
不要依赖霍普金斯的统计数据。这是对一致性的简单测试,但不是对多模态的测试。即,单个高斯将具有很高的“聚类趋势”,但这可能对您没有用处。
标签: r cluster-analysis pca financial