查看 scikit-learn 流形学习方法中的保留方差答案

【问题标题】：See retained variance in scikit-learn manifold learning methods查看 scikit-learn 流形学习方法中的保留方差
【发布时间】：2016-11-25 07:35:34
【问题描述】：

我有一个图像数据集，我想对其进行非线性降维。要决定使用多少个输出维度，我需要能够找到保留的方差（或解释的方差，我相信它们是相似的）。 Scikit-learn 似乎拥有迄今为止最好的流形学习算法选择，但我看不到任何获得保留方差统计的方法。我是否缺少 scikit-learn API 的一部分，或者是计算保留方差的简单方法？

【问题讨论】：

标签： python scikit-learn variance

【解决方案1】：

我不认为有一种简洁的方法可以导出大多数非线性维度技术的“解释方差”，就像它为 PCA 所做的那样。对于 PCA，这很简单：您只需获取特征分解中主成分的权重（即其特征值）并将用于线性降维的权重相加。当然，如果保留所有特征向量，那么您将“解释”100% 的方差（即完美重构协方差矩阵）。

现在，人们可以尝试以类似的方式为其他技术定义解释方差的概念，但它的含义可能不同。例如，一些降维方法可能会积极尝试推开更多不同的点，最终得到比我们开始时更多的方差。如果它选择将一些点紧密地聚集在一起，则更少。

但是，在许多非线性降维技术中，还有一些其他度量可以给出“拟合优度”的概念。例如，在 scikit-learn 中，isomap has a reconstruction error、tsne can return its KL-divergence 和 MDS can return the reconstruction stress。

【讨论】：