【发布时间】:2021-10-21 03:15:53
【问题描述】:
您好,我是机器学习新手。我需要一些关于高维数据无监督聚类的帮助。我有超过 15 个维度的数据,大约 50 - 8 万行。数据看起来像这样(15 个参与者,每个参与者的行数几乎相等,有 15 个特征)-
| Participant | time | feature 1 | feature 2... |
|---|---|---|---|
| 1 | 0.05 | val | val |
| 1 | 0.10 | val | val |
| 2 | 0.05 | val | val |
| 2 | 0.10 | val | val |
| 2 | 0.15 | val | val |
数据由许多参与者组成,每个参与者都有多行数据,并且它们都带有其特征的时间戳。我的目标是根据参与者对这些数据进行聚类,并根据这些聚类进行推断。这里的问题是每个参与者都有很多行,我不能用一个点来代表每个参与者,所以对它们进行聚类似乎是一项艰巨的任务。
我需要帮助:
-
对这些数据进行聚类以便我可以根据参与者做出推断的最佳方法是什么?
-
我应该使用哪种聚类技术?我已经尝试过 sklearn 的 Kmeans、meanshift 和其他库,但它们花费的时间太长,导致我的系统崩溃。
对不起,如果有点难以理解,我会尽力回答您的问题。预先感谢您的帮助。如果这个问题与其他问题非常相似,请告诉我(我找不到)。
谢谢你:)
【问题讨论】:
-
这篇文章似乎更适合交叉验证:stats.stackexchange.com
-
谢谢,我也会在那边分享。
标签: python machine-learning cluster-analysis unsupervised-learning feature-clustering