【发布时间】:2021-02-14 10:19:11
【问题描述】:
我正在尝试通过首先在 R 中执行 K-means 聚类来减少输入数据大小,然后为每个代表性聚类采样 50-100 个样本以进行下游分类和特征选择。
原始数据集被拆分为 80/20,然后 80% 进入 K 表示训练。我知道输入数据有 2 列标签和 110 列数值变量。从标签栏中,我知道有 7 种不同的药物治疗方法。同时,我测试了肘部方法以找到簇数的最佳 K,它在 8 左右。所以我选择了 10,以便有更多的数据簇可供下游采样。
现在我已经完成了模型的运行
那么对于 10 个质心,我如何找出标签是什么?我不能这样做
training_set$centroids <- model$centroids
最重要的问题是,我如何找到每个集群的 100 个样本,这些样本与各自的质心最接近?我在 python 中看到过一篇文章,但还没有 R 资源。 Output 50 samples closest to each cluster center using scikit-learn.k-means library 有什么指点吗?
【问题讨论】:
标签: r k-means centroid subsampling