【问题标题】:Density Based Clustering with Representatives基于密度的代表聚类
【发布时间】:2016-04-17 15:16:12
【问题描述】:

我正在寻找一种方法来执行基于密度的聚类。生成的集群应该有一个不同于DBSCAN 的代表。 Mean-Shift 似乎满足了这些需求,但不足以满足我的需求。我研究了一些子空间聚类算法,只发现CLIQUE使用代表,但这部分没有在Elki中实现。

【问题讨论】:

  • 那你为什么不添加“缺失”的功能呢?

标签: cluster-analysis dbscan elki mean-shift


【解决方案1】:

正如我在您的问题上一次迭代的 cmets 中指出的那样, https://stackoverflow.com/questions/34720959/dbscan-java-library-with-corepoints

基于密度的聚类不假设存在中心或代表

考虑以下示例 image from Wikipedia user Chire (BY-CC-SA 3.0):

哪个对象应该是红色簇的代表?

基于密度的聚类是关于寻找“任意形状”的聚类。这些没有有意义的单一代表对象。它们并不是为了“压缩”您的数据——这不是vector quantization 方法,而是结构发现。但正是这种复杂结构的性质,它不能被简化为一个单一的代表。 这种集群的正确表示是集群中所有点的集合。为了在 2D 中理解几何,您还可以计算凸包,例如,以获得该图片中的区域。

选择具有代表性的对象是一项不同的任务。这不是发现这种结构所必需的,因此这些算法不会计算代表性对象 - 这会浪费 CPU。

【讨论】:

    【解决方案2】:

    您可以选择密度最高的对象作为集群的代表。

    对 DBSCAN 进行相当简单的修改以存储每个对象的邻居计数。

    但正如 Anony-Mousse 所提到的,该对象可能仍然是一个相当糟糕的选择。基于密度的聚类并非旨在产生具有代表性的对象。

    您可以尝试 AffinityPropagation,但它也不能很好地扩展。

    【讨论】:

      猜你喜欢
      • 2013-01-31
      • 2015-02-22
      • 2011-04-20
      • 2019-08-23
      • 2021-01-02
      • 2019-11-13
      • 2014-06-05
      • 2018-11-23
      • 2021-03-08
      相关资源
      最近更新 更多