【发布时间】:2019-09-19 16:11:18
【问题描述】:
我正在尝试根据用户的行为对一些产品进行聚类。我最后得到的是具有非常不同数量的观察值的集群。
我检查了 k-means 聚类参数,但找不到控制每个聚类的最小(或最大)观察数的参数。
例如,这里是观察的数量如何分布在不同的集群中。
cluster_id num_observations
0 6
1 4
2 1
3 3
4 29
5 5
关于如何处理这个问题的任何帮助?还有其他聚类算法可以解决这个问题吗?
【问题讨论】:
-
你是如何计算集群的?根据 knn 的定义,但在每组中可以拥有的观察数量上设置大小,您的结果将是偏差并且结果可能不正确,特别是如果您计划并在真实数据上使用模型
-
这可能是一个好兆头,表明您应该为 KMeans 选择更少的集群!
-
我不知道你为什么要这样做,如果你这样做,它不是 k-means 聚类,但这里有一个想法:Do k-means clustering, then, for clusters below最小尺寸,找到离集群中心最近但不在集群中的邻居,并将其移动到那里。重复。但是,我不知道如何解释它的真正含义。
标签: pandas machine-learning scikit-learn data-science k-means