【发布时间】:2019-05-01 04:11:41
【问题描述】:
我有一张这样的用户分数表:
user_id score duration_of_per_play start_date
1 56 313 2018-01-09
2 14 560 2018-08-01
1 56 113 2018-01-09
4 14 340 2018-08-01
....
现在我想对用户集群使用k-means 算法。
只是我知道我没有Missing Values 和outliers。
但我不知道:
- 下一步是什么?
- 我需要
centering数据吗?
我有这个游戏的 42,000 条记录。我想根据scores 和duration_of_per_play 对用户进行集群。
【问题讨论】:
-
您有或没有有异常值和/或缺失值?
-
创建一个特征向量(可能是其中的一行)并将其填充到k-means implementation 中。估计的平均值(它们是 KMeans 类的属性)会产生您的结果。注意 1:不,您不需要将数据居中。注意 2:检查这是否真的符合您的需求。
-
@Shlomif 感谢您的评论,我对异常值进行了预处理,并且我没有任何缺失值,因为我通过这些记录从我的 API 收集并且所有验证都已完成。
标签: python cluster-analysis data-mining k-means