【发布时间】:2020-11-29 09:01:19
【问题描述】:
我试图找出一种方法来衡量对象之间的相似性,在这种情况下是商店。 假设我们有 5 家商店的列表。我们有以下每个月度指标:
- 月份 - 相关月份 (Jan - Dez)
- TotalSales - 总销售额
- NumCustomers - 在商店购买的客户数量
- AvgUnitPrice - 他们为每件商品支付的平均价格。
数据集的样本如下所示:
Store Month TotalSales NumCustomers AvgUnitPrice
1 Jan 100 10 5.00
2 Jun 150 12 4.70
3 Mar 200 20 4.95
4 Apr 100 13 3.80
5 Dec 300 25 4.36
我有 6 个具有相同变量(TotalSales、NumCustomers 和 AvgUnitPrice)的商店。
根据上述指标,我如何量化每个商店 (1 - 5) 与商店 6 的相似程度?
我假设了两种方法,只是还不知道如何实现它们。
- 方法 1:使用计算人员相关性的函数。示例输出(商店 1 - 商店 6 = 86%)
- 方法 2:使用计算距离的模型(例如 KNN)来确定哪些商店是“最近的”。
不胜感激有关此事的任何指导。和平:)
【问题讨论】:
-
一种解决方案是使用 pandas 数据帧来存储您的数据(您可能已经在使用),然后对方法 1 使用
pandas.DataFrame.corrwith()方法,然后对方法 1 使用一些Sklearn.neighbours方法方法2。