【发布时间】:2017-07-23 23:13:51
【问题描述】:
我想对一组数据进行聚类,如下:
{[1,2],
[2,3],
[3,2],
[9,8],
[8,10],
[7,9,8],
[7,10,5,9]
...
}
数据没有固定维度。
当 K = 2 时,应将前 3 个元素聚类为一组,将其他 4 个元素聚类为一组。
我了解k-means算法,但问题是它的距离计算不适合我的情况。由于尺寸不同,我使用 Jaccard 距离作为每两个元素的距离。
代替计算手段,一种想法是找到集群的质心。质心是与集群中所有其他点的距离之和最小的点。
我正在根据上面的想法编写程序,实现 k-means++ 聚类。我想要一个稳定的算法(每次运行的输出不应该有很大的不同),应该比较快并且必须使用 Jaccard 距离。
我来这里是为了听取建议,因为这是我第一次做数据聚类,所以也许我错过了一些东西。如果有一个或指出我的错误,请向我推荐一个合适的算法。
【问题讨论】: