【问题标题】:user profiling and outlier detection用户分析和异常值检测
【发布时间】:2014-04-29 02:36:32
【问题描述】:

我有一个包含 100 万客户的数据集。他们被分为一些类别,如电子客户、食品和饮料客户等。组名代表客户的个人资料。

每个客户都有不同的行为。例如,假设一位电子客户至少在购物时购买了一台电子设备。该事务随机或连续重复。这样我就可以通过数字代码呈现每笔交易。

(交易金额、交易量、交易类型等)= (100,200,1)

对于每笔交易,我在上面都有这个向量。这意味着每个客户都有不同的交易行为。

我想知道每个客户是否都有一个模式?我们有异常值吗?

这基本上是一个分析问题。

您推荐哪种分析方法?

【问题讨论】:

    标签: data-mining


    【解决方案1】:

    你能说得更具体点吗?你到底想从分析中得到什么?购买模式、异常客户、异常购买?

    如果您想确定哪些商品是一起购买的,请将交易分组在一起,只需列出同时购买的商品并使用 apriori 算法或类似算法进行购物篮分析。

    如果您想找到相似的客户,请使用 k 最近邻或 k 表示针对代表客户购买模式(可能只是购买的商品)的向量。您也可以对单个交易执行此操作以比较交易。

    要确定异常值,您可以使用基于密度的聚类算法(例如 DBSCAN)将彼此靠近的客户聚集在一起,并查看那些不在聚类中的客户也确定异常值。

    【讨论】:

    • 感谢您的回复。我声称每个客户都有一个特殊的模式,每个向量都建立了这个模式。如果您的数千笔交易中有异常交易,它会影响您的交易行为。我们将其命名为异常值。这是一个可疑的模式。我需要检查向量是否相互关联吗?
    猜你喜欢
    • 2021-01-16
    • 1970-01-01
    • 1970-01-01
    • 2020-06-09
    • 2019-07-24
    • 1970-01-01
    • 2023-03-15
    • 2020-04-03
    • 2015-01-09
    相关资源
    最近更新 更多