使用 PCA (Python) 可视化集群结果答案

【问题标题】：Visualizing clusters result using PCA (Python)使用 PCA (Python) 可视化集群结果
【发布时间】：2021-05-18 03:20:57
【问题描述】：

我有一个包含 61 行（用户）和 26 列的数据集，我在其上应用了 k-means 和其他算法的聚类。标准化后首先在数据集上应用 KMeans。作为之前的任务，我在对其进行规范化并识别出 10 个集群后对这些数据运行 k-means。与此同时，我还尝试将这些集群可视化，这就是我使用 PCA 来减少特征数量的原因。

我写了以下代码：

UserID  Communication_dur   Lifestyle_dur   Music & Audio_dur   Others_dur  Personnalisation_dur    Phone_and_SMS_dur   Photography_dur Productivity_dur    Social_Media_dur    System_tools_dur    ... Music & Audio_Freq  Others_Freq Personnalisation_Freq   Phone_and_SMS_Freq  Photography_Freq    Productivity_Freq   Social_Media_Freq   System_tools_Freq   Video players & Editors_Freq    Weather_Freq
1   63  219 9   10  99  42  36  30  76  20  ... 2   1   11  5   3   3   9   1   4   8
2   9   0   0   6   78  0   32  4   15  3   ... 0   2   4   0   2   1   2   1   0   0


from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA 

Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(3) 
pca.fit(X) 
pca_data = pd.DataFrame(pca.transform(X)) 
print(pca_data.head())

给出以下结果：

我想通过使用 PCA 显示我的数据集的图（集群）并解释结果？我是这个领域的新手，非常感谢您的建议！

再次提前致谢。

【问题讨论】：

您想要它们是 3D 还是 2D？ 2D 会更容易，但现在你有了 3D。
我想要二维！我可以改变 pca = PCA(2)
这能回答你的问题吗？ How to plot clusters in python?
不，我找不到任何解决方案！

标签： python cluster-analysis k-means

【解决方案1】：

使用示例数据集：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA 
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

df, y = make_blobs(n_samples=70, centers=10,n_features=26,random_state=999,cluster_std=1)

执行缩放、PCA 并将 PC 分数放入数据框中：

Sc = StandardScaler()
X = Sc.fit_transform(df)
pca = PCA(2) 
pca_data = pd.DataFrame(pca.fit_transform(X),columns=['PC1','PC2'])

执行 kmeans 并将标签放入数据框中，您已经可以使用 seaborn 对其进行绘制：

kmeans =KMeans(n_clusters=10).fit(X)
pca_data['cluster'] = pd.Categorical(kmeans.labels_)
sns.scatterplot(x="PC1",y="PC2",hue="cluster",data=pca_data)

或matplotlib：

fig,ax = plt.subplots()
scatter = ax.scatter(pca_data['PC1'], pca_data['PC2'],c=pca_data['cluster'],cmap='Set3',alpha=0.7)
legend1 = ax.legend(*scatter.legend_elements(),
                    loc="upper left", title="")
ax.add_artist(legend1)

【讨论】：

引发此错误：TypeError：数据类型不理解
您使用的是哪个版本的 seaborn。我在'0.11.0'。好的，我添加了一个 matplotlib 代码
感谢您的回答！如何处理重叠组。
嘿..这是另一个问题，我看不到您的屏幕或数据来评论或帮助。请发布另一个具有可重复数据的问题以获得帮助
我还注意到您从未接受过一个答案。请参阅stackoverflow.com/help/someone-answers。 SO 不是你让其他用户为你编写代码的地方！！！