【发布时间】:2015-06-01 22:29:30
【问题描述】:
我有来自 UCI 机器学习存储库的测试分类数据集,这些数据集已标记。
我正在剥离标签并使用数据对一些聚类算法进行基准测试,然后我计划使用外部验证方法。我将使用不同的初始配置运行算法,例如 50 次,然后取平均值。对于 50 次迭代,该算法用不同的数字标记单个集群的数据点。因为在每次运行中集群标签可能会发生变化,也因为每次迭代可能会有稍微不同的集群分配,如何以某种方式将每个集群重新映射到一个统一编号。
主要想法是通过检查类标签中有多少点与实际标签中的最大值相交来重新映射,然后基于此进行重新映射,但这可能会得到不正确的重新映射,因为当类或多或少时相同数量的点,这将不起作用。
另一个想法是在聚类时保留标签,但让聚类算法忽略它。这样所有的集群数据都会有标签标签。这是可行的,但我已经有一个要处理的基准集群分配数据,因此我试图避免修改和重新对集群分析算法的实现(这将需要相当长的时间和 cpu)进行基准测试,并将标签标签包含到向量,然后忽略它。
有什么方法可以从我现在拥有的集群分配中计算平均准确度?
编辑:
我正在研究的领域(元启发式聚类算法)我找不到比较这些索引的论文。比较的论文在他们的价值观上似乎是不正确的。谁能给我指出一篇使用这些索引比较聚类结果的论文?
【问题讨论】:
标签: cluster-analysis