为 K 中的每个聚类绘制 WordCloud 均值聚类

【问题标题】：Plotting WordCloud for each Cluster in K Means Clustering为 K 中的每个聚类绘制 WordCloud 均值聚类
【发布时间】：2019-09-26 18:55:25
【问题描述】：

我有一组BOW features，而且我知道要使用的最佳n_clusters。我需要帮助来为每个集群绘制一个WordCloud，以便我们可以一次性分析每个集群中的单词。

请参考任何一组 BOW 功能并采用任何 n_cluster，我会将其与我的问题联系起来。

考虑以下特征：

['aa', 'aahhhs', 'aback', 'abandon', 'abates', 'abbott', 'abby', 'abdominal', 'abiding', 'ability']

和 3 表示没有集群。

【问题讨论】：

【解决方案1】：

假设你适合你的模型：

from sklearn.cluster import KMeans
kmeans_bow = KMeans(n_clusters=3, n_jobs=-1).fit(X_train_bow)

您的拟合模型将具有属性kmeans_bow.labels_。这基本上告诉您哪些数据点已分配给哪些集群。您可能需要使用kmeans_bow.labels_.tolist()

因此下一步将使用您的词袋矢量化器使用features = bow_vect.get_feature_names() 获取特征名称，并为它们分配您在上面获得的相应标签。

使用 for 循环遍历您的数据并创建包含与每个标签对应的单词的列表[s]。只需将这些列表作为文本传递给您的 WordCloud 类，并进行您可能需要的任何自定义。

【讨论】：