【发布时间】:2015-03-28 20:35:23
【问题描述】:
我目前正在尝试使用 KMeans 聚类解决某种回归任务(预测“计数”字段的值)。这个想法很简单:
在我的测试数据集上拟合一个集群:
k_means = cluster.KMeans(n_clusters=4, n_init = 20, init='random')
k_means.fit(df[['DistanceToMidnight','season','DayType','weather','temp','atemp','humidity','windspeed','count']])
*请注意,我在聚类中确实使用了“计数”。
然后我想使用我的测试集(几乎相同,除了它没有“计数”字段) - 我想使用除“计数”之外的所有特征来确定集群成员资格,然后将“计数”分配给每个测试集中的行到分配的集群中心的“计数”相关坐标。
任何想法如何使用 KMeans 集群的标准功能简单地做到这一点?我不能只调用“k_means.predict”,因为它会由于功能编号不匹配而失败。
我能想到的最简单的方法是使用已经训练好的聚类提供的聚类中心来构造一个 k_means 聚类对象。但我不知道该怎么做。是否可以通过为它提供已定义的集群质心来创建新的 cluster.KMeans 对象?
【问题讨论】:
标签: python scikit-learn cluster-analysis k-means