【问题标题】:hierarchical clustering for collection of sets用于集合集合的层次聚类
【发布时间】:2022-01-17 17:35:13
【问题描述】:

我有一个集合像

 b1={a1,a2,a3,a4,a5}
 b2={a6,a7,a8,a9}
 b3={a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}
 b4={a6,a7,a8,a12}
 b5={a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12}
 c1={d1,d2,d3}     
 c2={d1,d2,d3,d4}
 c3={d1,d2,d3,d4,d5}
 c4={d1,d2,d3,d4,d5,d6}

其中 b1 和 b2 是 b3 的子集,b3 本身是 b5 的子集,b4 是 b5 的另一个子集。 c1 是 c2 的子集,c2 本身是 c3 的子集,c3 本身是 c4 的子集。假设所有集合中的所有元素都是字符串(a1...a12 是字符串,d1..d6 也是字符串)。是否可以使用 Sklearn 在 Python 中进行层次聚类?如果不是,只有最后一个子集的名称可以,b1,b2,b4 和 c1 在这里。

【问题讨论】:

    标签: python scikit-learn cluster-analysis cluster-computing hierarchical-clustering


    【解决方案1】:

    据我所知,sklearn.cluster 使用非字符串格式。

    我有一个想法 - 你使用 pd.get_dummies 将你的数据转换为整数格式。但是,由于您有集合,您需要检查新数据集的正确性。在此之后,您可以使用任何集群化,例如 BIRCH

    【讨论】:

      猜你喜欢
      • 2011-01-26
      • 2021-08-17
      • 1970-01-01
      • 1970-01-01
      • 2018-06-14
      • 1970-01-01
      • 2021-02-24
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多