用于集合集合的层次聚类答案

【问题标题】：hierarchical clustering for collection of sets用于集合集合的层次聚类
【发布时间】：2022-01-17 17:35:13
【问题描述】：

我有一个集合像

 b1={a1,a2,a3,a4,a5}
 b2={a6,a7,a8,a9}
 b3={a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}
 b4={a6,a7,a8,a12}
 b5={a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12}
 c1={d1,d2,d3}     
 c2={d1,d2,d3,d4}
 c3={d1,d2,d3,d4,d5}
 c4={d1,d2,d3,d4,d5,d6}

其中 b1 和 b2 是 b3 的子集，b3 本身是 b5 的子集，b4 是 b5 的另一个子集。 c1 是 c2 的子集，c2 本身是 c3 的子集，c3 本身是 c4 的子集。假设所有集合中的所有元素都是字符串（a1...a12 是字符串，d1..d6 也是字符串）。是否可以使用 Sklearn 在 Python 中进行层次聚类？如果不是，只有最后一个子集的名称可以，b1,b2,b4 和 c1 在这里。

【问题讨论】：

标签： python scikit-learn cluster-analysis cluster-computing hierarchical-clustering

【解决方案1】：

据我所知，sklearn.cluster 使用非字符串格式。

我有一个想法 - 你使用 pd.get_dummies 将你的数据转换为整数格式。但是，由于您有集合，您需要检查新数据集的正确性。在此之后，您可以使用任何集群化，例如 BIRCH

【讨论】：