【问题标题】:Cluster Validation : how to validate and measure predefined clusters集群验证:如何验证和测量预定义的集群
【发布时间】:2021-02-23 21:35:47
【问题描述】:

我是 python 新手,正在处理一个消费者数据集,我们使用 LCA、K-Means、DBSCAN 和光谱聚类来计算集群。在所有这些方法中,簇的数量是不同的(例如,K-Means 中的 5 个簇,而 LCA 中的 7 个)并且自变量可能相同也可能不同(例如,K-means 中的自变量为 12 个,而 LCA 中的自变量为 10)。现在我想使用集群凝聚力、集群分离、熵、纯度、杰卡德系数、兰德指数等来验证集群。我需要帮助;

  1. 这些措施是否适用于集群验证?
  2. python 中有没有可以一次计算所有这些的函数/库?
  3. 如果没有可用的函数/库,如何在 python 中计算这些。

希望我清楚,并提前感谢您的帮助。

【问题讨论】:

  • 我正在尝试使用adjusted_rand_score(labels_true, labels_pred) 但出现错误ValueError: labels_true must be 1D: shape is (2000, 1)。没有。我的数据集中的记录数为 2000。其中 X1,X2 ... 是不同的自变量,Cluster_Sol5 = [0,3,2,2,3,1,5 .......] Cluster_Sol7 = [0,7 ,1,1,1,1,5,6.....]

标签: python validation cluster-analysis


【解决方案1】:

Sklearn 提供所有这些参数。它们是否合适?这些是对聚类结果进行评分的标准和公认的指标。如果聚类是解决您的问题的正确工具,那么这些指标适用于验证您的结果。

【讨论】:

    猜你喜欢
    • 2013-08-20
    • 2022-09-23
    • 2016-10-22
    • 1970-01-01
    • 1970-01-01
    • 2021-11-07
    • 2021-03-08
    • 2015-05-03
    • 2018-06-03
    相关资源
    最近更新 更多