【发布时间】:2019-02-14 15:38:42
【问题描述】:
我有一组数据,包含 50 个特征(c1、c2、c3 ...),行数超过 80k。
每一行都包含标准化的数值(范围为 0-1)。它实际上是一个归一化的虚拟变量,其中一些行只有很少的特征,3-4(即,如果没有值,则分配 0)。大多数行有大约 10-20 个特征。
我使用 KMeans 对数据进行聚类,结果总是导致一个包含大量成员的聚类。经过分析,我注意到少于 4 个特征的行往往会聚集在一起,这不是我想要的。
是否有平衡集群的方法?
【问题讨论】:
-
是少于 4 个特征的行具有相同的对应特征。您是否尝试过增加 k 的值
-
不,它们有非常不同的功能。我使用肘部方法改变了 K,范围为 50-100。
-
显示你在集群中的代码部分和输出。
标签: python cluster-analysis k-means data-science feature-engineering