【问题标题】:Which clustering algorithm is suitable for this task?哪种聚类算法适合这项任务?
【发布时间】:2017-07-23 23:13:51
【问题描述】:

我想对一组数据进行聚类,如下:

  {[1,2],
   [2,3],
   [3,2],
   [9,8],
   [8,10],
   [7,9,8],
   [7,10,5,9]
   ...
  }

数据没有固定维度。

当 K = 2 时,应将前 3 个元素聚类为一组,将其他 4 个元素聚类为一组。

我了解k-means算法,但问题是它的距离计算不适合我的情况。由于尺寸不同,我使用 Jaccard 距离作为每两个元素的距离。

代替计算手段,一种想法是找到集群的质心。质心是与集群中所有其他点的距离之和最小的点。

我正在根据上面的想法编写程序,实现 k-means++ 聚类。我想要一个稳定的算法(每次运行的输出不应该有很大的不同),应该比较快并且必须使用 Jaccard 距离。

我来这里是为了听取建议,因为这是我第一次做数据聚类,所以也许我错过了一些东西。如果有一个或指出我的错误,请向我推荐一个合适的算法。

【问题讨论】:

    标签: cluster-analysis k-means


    【解决方案1】:

    而不是 k-means - 它需要固定数量的连续值维度来计算均值 - 为什么不使用更合适的方法

    层次聚类

    可以与 Jaccard 距离一起使用!

    【讨论】:

    • 层次聚类可以与 Jaccard 距离一起使用吗?
    • 是的,这就是我推荐使用它的原因。
    • 我已经修改了 K-means ++ 聚类,它适用于 Jaccard 距离,似乎工作正常。我也会尝试分层聚类。谢谢你的建议!
    猜你喜欢
    • 2016-10-14
    • 2019-10-17
    • 2017-11-21
    • 2013-02-06
    • 2018-09-22
    • 1970-01-01
    • 1970-01-01
    • 2021-02-20
    • 1970-01-01
    相关资源
    最近更新 更多