基于概率的基于密度的聚类数据集和可能的聚类验证方法答案

【问题标题】：Dataset for density based clustering based on probability and possible cluster validation method基于概率的基于密度的聚类数据集和可能的聚类验证方法
【发布时间】：2014-06-05 19:10:54
【问题描述】：

谁能帮我找到一个具有分数作为属性值并具有类标签的数据集（用于集群验证的基本事实）。我想找到每个数据项的概率并将其用于聚类。

优选的属性值是每个属性的用户调查分数（1-差、2-满意、3-好、4-非常好）。我更喜欢分数值（比如 1、2、3、 4）作为属性值，很容易从这些分值中计算出每个属性值的概率。

我从 UCI 存储库中找到了一些数据集，但并非所有属性值都是得分值。

【问题讨论】：

我还想获得关于以下问题的建议.....我的目标是在这样的数据集上应用基于密度的聚类。我想像凝聚力和分离这样的内部集群验证指标在这种基于密度的方法上不会显示出好的结果，我还发现集群作为一种探索性方法不会给出正确的类标签。所以我应该使用哪种方法来评估从这种聚类产生的聚类。我对聚类/验证方法的理解是否有任何错误？

标签： statistics dataset cluster-analysis probability survey

【解决方案1】：

大多数（如果不是全部）聚类算法都是基于密度的。

您需要查看大量关于聚类算法的调查文献。文学上有数百种基于密度的算法，包括 DBSCAN、OPTICS、DENCLUE、...

但是，我的印象是您使用的术语“基于密度”与文学不同。您似乎指的是概率，而不是密度？

不要指望聚类给出类标签。类不是集群。类可以是不可分割的，或者一个类可以由多个集群组成。例如，著名的 iris 数据集直观地只包含 2 个集群（但 3 个类）。

对于评估和所有这些，请检查现有问题和答案。

【讨论】：

你能解释一下为什么集群标签和类标签不同。如果它们不同，我们不能使用类标签来计算外部集群验证参数，是这样吗？
您可以使用随机数来计算外部验证参数...它会返回一个结果；但结果可能不像您标记了真实的集群那样有用。我并不是说集群与类正交，但不一定存在 1:1 的对应关系。集群评估是黑魔法。类标签是我们迄今为止发现的最好的标签。