【发布时间】:2014-06-05 19:10:54
【问题描述】:
谁能帮我找到一个具有分数作为属性值并具有类标签的数据集(用于集群验证的基本事实)。我想找到每个数据项的概率并将其用于聚类。
优选的属性值是每个属性的用户调查分数(1-差、2-满意、3-好、4-非常好)。我更喜欢分数值(比如 1、2、3、 4)作为属性值,很容易从这些分值中计算出每个属性值的概率。
我从 UCI 存储库中找到了一些数据集,但并非所有属性值都是得分值。
【问题讨论】:
-
我还想获得关于以下问题的建议.....我的目标是在这样的数据集上应用基于密度的聚类。我想像凝聚力和分离这样的内部集群验证指标在这种基于密度的方法上不会显示出好的结果,我还发现集群作为一种探索性方法不会给出正确的类标签。所以我应该使用哪种方法来评估从这种聚类产生的聚类。我对聚类/验证方法的理解是否有任何错误?
标签: statistics dataset cluster-analysis probability survey