基于密度的代表聚类答案

【问题标题】：Density Based Clustering with Representatives基于密度的代表聚类
【发布时间】：2016-04-17 15:16:12
【问题描述】：

我正在寻找一种方法来执行基于密度的聚类。生成的集群应该有一个不同于DBSCAN 的代表。 Mean-Shift 似乎满足了这些需求，但不足以满足我的需求。我研究了一些子空间聚类算法，只发现CLIQUE使用代表，但这部分没有在Elki中实现。

【问题讨论】：

那你为什么不添加“缺失”的功能呢？

标签： cluster-analysis dbscan elki mean-shift

【解决方案1】：

正如我在您的问题上一次迭代的 cmets 中指出的那样， https://stackoverflow.com/questions/34720959/dbscan-java-library-with-corepoints

基于密度的聚类不假设存在中心或代表。

考虑以下示例 image from Wikipedia user Chire (BY-CC-SA 3.0)：

哪个对象应该是红色簇的代表？

基于密度的聚类是关于寻找“任意形状”的聚类。这些没有有意义的单一代表对象。它们并不是为了“压缩”您的数据——这不是vector quantization 方法，而是结构发现。但正是这种复杂结构的性质，它不能被简化为一个单一的代表。 这种集群的正确表示是集群中所有点的集合。为了在 2D 中理解几何，您还可以计算凸包，例如，以获得该图片中的区域。

选择具有代表性的对象是一项不同的任务。这不是发现这种结构所必需的，因此这些算法不会计算代表性对象 - 这会浪费 CPU。

【讨论】：

【解决方案2】：

您可以选择密度最高的对象作为集群的代表。

对 DBSCAN 进行相当简单的修改以存储每个对象的邻居计数。

但正如 Anony-Mousse 所提到的，该对象可能仍然是一个相当糟糕的选择。基于密度的聚类并非旨在产生具有代表性的对象。

您可以尝试 AffinityPropagation，但它也不能很好地扩展。

【讨论】：