【发布时间】:2016-12-09 02:48:54
【问题描述】:
我在 Scikit-learn 中通过 k-means 对 398 个样本、306 个特征进行聚类。特征矩阵稀疏,簇数为4。 为了改进聚类,我尝试了两种方法:
聚类后,我使用 ExtraTreesClassifier() 对特征重要性进行分类和计算(聚类中标记的样本)
-
我使用 PCA 将特征维度减少到 2。 我计算了以下指标(SS,CH,SH)
Method sum_of_squares, Calinski_Harabasz, Silhouette 1 kmeans 31.682 401.3 0.879 2 kmeans+top-features 5989230.351 75863584.45 0.977 3 kmeans+PCA 890.5431893 58479.00277 0.993
我的问题是:
- 据我所知,平方和越小,聚类方法的性能越好,而如果Silhouette接近1,则聚类方法的性能更好。例如,与第一行相比,最后一行的平方和和轮廓都增加了。
- 如何选择性能更好的方法?
【问题讨论】:
-
SI既然是关于集群诊断的问题,我觉得更适合CrossValidated
标签: scikit-learn cluster-analysis k-means