【问题标题】:Cluster assignment remapping集群分配重新映射
【发布时间】:2015-06-01 22:29:30
【问题描述】:

我有来自 UCI 机器学习存储库的测试分类数据集,这些数据集已标记。

我正在剥离标签并使用数据对一些聚类算法进行基准测试,然后我计划使用外部验证方法。我将使用不同的初始配置运行算法,例如 50 次,然后取平均值。对于 50 次迭代,该算法用不同的数字标记单个集群的数据点。因为在每次运行中集群标签可能会发生变化,也因为每次迭代可能会有稍微不同的集群分配,如何以某种方式将每个集群重新映射到一个统一编号。

主要想法是通过检查类标签中有多少点与实际标签中的最大值相交来重新映射,然后基于此进行重新映射,但这可能会得到不正确的重新映射,因为当类或多或少时相同数量的点,这将不起作用。

另一个想法是在聚类时保留标签,但让聚类算法忽略它。这样所有的集群数据都会有标签标签。这是可行的,但我已经有一个要处理的基准集群分配数据,因此我试图避免修改和重新对集群分析算法的实现(这将需要相当长的时间和 cpu)进行基准测试,并将标签标签包含到向量,然后忽略它。

有什么方法可以从我现在拥有的集群分配中计算平均准确度?

编辑:

我正在研究的领域(元启发式聚类算法)我找不到比较这些索引的论文。比较的论文在他们的价值观上似乎是不正确的。谁能给我指出一篇使用这些索引比较聚类结果的论文?

【问题讨论】:

    标签: cluster-analysis


    【解决方案1】:

    数量个簇不一致怎么办?

    不要尝试映射集群。

    相反,请使用适当的外部验证措施进行集群,这不需要集群的 1:1 对应关系。有很多,详情见维基百科。

    【讨论】:

    • 我正在使用固定数量的集群,并且没有一个是空的。我将看到不需要 1:1 对应的方法。您在这里对修改后的 F-Measure 说了什么:dl.acm.org/citation.cfm?id=1641404
    • 首先尝试不需要这种映射的 标准 度量,例如 Rand、ARI 等。 ;-)
    • 是的,我不需要重新映射。阅读一些东西,我了解到基于列联表的方法可能适合我的情况。我要试试 ARI。目前已按照 [此处] (cs.rpi.edu/~zaki/www-new/uploads/Dmcourse/Main/chap18.pdf) 的说明实施纯度和 F 测量。我正在研究的领域(元启发式聚类算法)我找不到比较这些索引的论文。比较的论文在他们的价值观上似乎是不正确的。你能指点我一篇使用这些索引比较聚类结果的论文吗?
    • 很多,只要在学者中输入 ARI。例如。 “关于使用调整后的 rand 指数作为评估监督分类的指标”... ARI 文章“Comparing partitions, L Hubert, P Arabie, Journal of classification, 1985”有超过 3000 次引用。
    猜你喜欢
    • 2017-09-13
    • 2016-12-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-11-12
    • 1970-01-01
    • 1970-01-01
    • 2018-10-23
    相关资源
    最近更新 更多