【问题标题】:How to pre-processing data of a game - k-means如何预处理游戏数据 - k-means
【发布时间】:2019-05-01 04:11:41
【问题描述】:

我有一张这样的用户分数表:

user_id  score duration_of_per_play  start_date
  1        56    313                 2018-01-09
  2        14    560                 2018-08-01
  1        56    113                 2018-01-09
  4        14    340                 2018-08-01
....

现在我想对用户集群使用k-means 算法。 只是我知道我没有Missing Valuesoutliers

但我不知道:

  1. 下一步是什么?
  2. 我需要centering 数据吗?

我有这个游戏的 42,000 条记录。我想根据scores 和duration_of_per_play 对用户进行集群。

【问题讨论】:

  • 没有有异常值和/或缺失值?
  • 创建一个特征向量(可能是其中的一行)并将其填充到k-means implementation 中。估计的平均值(它们是 KMeans 类的属性)会产生您的结果。注意 1:不,您不需要将数据居中。注意 2:检查这是否真的符合您的需求。
  • @Shlomif 感谢您的评论,我对异常值进行了预处理,并且我没有任何缺失值,因为我通过这些记录从我的 API 收集并且所有验证都已完成。

标签: python cluster-analysis data-mining k-means


【解决方案1】:

K-means 本身不需要预先居中,但由于您使用的功能规模不同,您从规范化数据中获益。
因此,我建议减去平均值并除以 STD(当然是每轴),然后只使用许多 k-mean 实现中的一种。
我还阅读了有关 k-means 以及有关选择集群数量、处理异常值等的不同选项,但这不是您所要求的“下一步”。
祝你好运!


这是一个很好的实现,您可以开始:https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

【讨论】:

  • 是的。但同样,一些预处理可以提供帮助。我的回答有帮助吗?
猜你喜欢
  • 2012-09-10
  • 2016-01-07
  • 2020-09-24
  • 2015-12-09
  • 2016-11-16
  • 1970-01-01
  • 2019-08-04
  • 1970-01-01
  • 2019-04-27
相关资源
最近更新 更多