【发布时间】:2020-06-24 08:45:38
【问题描述】:
我有一个数据框
usd_id trade_datetime position
A 2019/01/01 08:01 1
A 2019/01/01 08:03 1
B 2019/01/01 08:03 1
A 2019/01/01 08:03 1
C 2019/01/01 08:10 2
C 2019/01/01 08:10 2
A 2019/01/01 08:20 2
对于每个user_id,可以做n条交易记录。 是否可以对这些交易模式进行聚类以识别相似的用户? 如果是,如何进行数据处理?
我之前学过 K-means 和 KNN,但是如果我的理解是正确的,这些算法是基于所有用户拥有相同维度数据的假设。谷歌搜索,但无济于事。
在上述数据中,user_id A 和 user_id B 应该比 A-C 和 B-C 距离最近,因为它们的交易时间和位置更相似。
谢谢
【问题讨论】:
-
您好,在您尝试识别的模式中,位置对于交易时间是否重要?
-
您好,最好将位置列作为一个因素,但如果不可能包括这个因素,也可以排除。
-
看我的回答,但是你的数据的形状真的取决于你想从你的数据中提取什么知识。对于类似的用户,按照我的帖子中的位置格式化为具有特征的 2D 数据集可以让您使用经典的聚类算法!
标签: python pandas cluster-analysis k-means knn