【发布时间】:2021-05-15 22:56:58
【问题描述】:
我正在尝试在 Python 中测试 3 种聚类算法(K-means、SpectralClustering、Mean Shift)。 我有一个包含 26 列和数千行的数据集,我需要一些高维数据集的帮助(子集如下所示)。
UserID Communication_dur Lifestyle_dur Music & Audio_dur Others_dur Personnalisation_dur Phone_and_SMS_dur Photography_dur Productivity_dur Social_Media_dur System_tools_dur ... Music & Audio_Freq Others_Freq Personnalisation_Freq Phone_and_SMS_Freq Photography_Freq Productivity_Freq Social_Media_Freq System_tools_Freq Video players & Editors_Freq Weather_Freq
1 63 219 9 10 99 42 36 30 76 20 ... 2 1 11 5 3 3 9 1 4 8
2 9 0 0 6 78 0 32 4 15 3 ... 0 2 4 0 2 1 2 1 0 0
我必须对具有非常高维度的数据进行聚类。我想知道如何尽可能准确地实现它。 如何可视化集群和数据点?
P.S:经过一番搜索,我意识到可以应用 PCA 进行降维,但我想知道如何使用它。
【问题讨论】:
-
聚类它们的目的是什么?我的意思是评估集群是否良好,必须根据目的进行评估。如果您只是使用另一种降维机制来比较集群(如 PCA 或 t-SNE),您的评估可能会基于该机制存在偏差。
-
我尝试根据用户对他们使用的应用程序的行为进行分组。然后,我尝试使用轮廓系数测试算法,然后我想可视化集群,但我不能,因为我有多个-维度数据
-
你想用集群回答什么问题,或者你打算用这些组做什么?
-
根据用户的应用使用行为发现不同的用户配置文件。
标签: python pandas cluster-analysis k-means