【发布时间】:2017-12-06 21:22:04
【问题描述】:
我有一个包含 38 套公寓及其早上、下午和晚上用电量的数据集。我正在尝试使用 scikit-learn 中的 k-Means 实现对这个数据集进行聚类,并且得到了一些有趣的结果。
第一个聚类结果:
这一切都很好,对于 4 个集群,我显然得到了与每个公寓相关联的 4 个标签 - 0、1、2 和 3。使用 KMeans 方法的 random_state 参数,我可以修复其中的种子质心是随机初始化的,因此我始终会得到归属于相同公寓的相同标签。
但是,由于此特定情况与能源消耗有关,因此可以在最高和最低消费者之间进行可衡量的分类。因此,我想将标签 0 分配给消费水平最低的公寓,将标签 1 分配给消费更多的公寓,依此类推。
到目前为止,我的标签是 [2 1 3 0] 或 ["black", "green", "blue", "red"];我希望它们是 [0 1 2 3] 或 ["red"、"green"、"black"、"blue"]。我应该如何继续这样做,同时仍然保持质心初始化随机(具有固定种子)?
非常感谢您的帮助!
【问题讨论】:
-
我认为最好的办法是在标签之后添加注释。
标签: python sorting numpy scikit-learn k-means