【发布时间】:2017-07-05 16:05:49
【问题描述】:
我有一组观察样本如下
var1 var2 var3 var4
1 2 1 1
3 2 1 3
1 2 0 1
3 2 2 3
所有值本质上都是分类的。我想将第 1 行和第 3 行分组到一个集群,将第 2 行和第 4 行分组到另一个集群。我相信 One-hot 编码在这种情况下无效,因为分类变量不具有任何等级,它们本质上是纯名义的。
(行也不必完全相同)。是否有预先构建的数学算法根据相似性/频率对这些行进行分组?任何人都可以提出一个好的方法吗?还是我应该使用 one-hot 编码?
【问题讨论】:
-
如果我没记错的话,也可以使用围绕 medoids 算法的分区中的 gower 距离对分类数据进行聚类。
标签: python r cluster-analysis