【问题标题】:Modeling Churn (supervised vs. unsupervised)建模流失(监督与无监督)
【发布时间】:2020-09-21 21:07:53
【问题描述】:

非常感谢您的反馈/cmets。

我正在尝试预测我的业务的流失率。我正在处理相对较少的客户流失和 1 年的时间跨度。今天没有流失的客户可能会在明天流失,这在将其视为监督学习问题时似乎会造成问题。

我尝试通过以下方式(引导)解决这个问题:

  • 循环 50 次

  • 对于每个循环,将数据划分为训练/测试 (80%/20%),并使用从训练中构建的逻辑 reg 获取测试集的流失概率

  • 测试观察的平均流失概率以确定每个观察的整体流失概率

  • 我还捕获了这些概率的标准偏差

在此之后,我可以隔离未流失的客户并获得每个客户流失的概率。我将误报(预计会流失但实际上并未流失)视为可能流失的客户。

当我尝试以类似方式运行随机森林和提升时,该模型以非常高的准确度预测客户流失,并且没有一个未流失客户的流失概率大于 10%(误报率极低)。这与我使用逻辑回归得到的非常不同。这是为什么呢?

这看起来是一种合理的方法吗?如果我能得到任何反馈,我将不胜感激。

【问题讨论】:

    标签: machine-learning logistic-regression unsupervised-learning supervised-learning


    【解决方案1】:

    您的一般方法很好 - 但请注意时间变量。假设您有 12 个月的数据。您必须创建数据快照,并为每次运行创建新的训练/测试群体。 例如,对于第一次运行,您使用基于第 1 个月收集的 KPI。确保您仅使用第 1 个月的活跃客户的数据。接下来将目标变量定义为在第 2 个月流失的客户。构建一个模型。使用此模型,但这次 - 将其用于基于第 2 个月收集的数据,并尝试预测哪个客户将在第 3 个月流失。 现在,您可以将第 1 个月的数据 + 第 2 个月的目标与第 2 个月的数据 + 第 3 个月的目标结合起来,然后移动到预测第 4 个月 - 依此类推。 时间因素对于预测客户流失至关重要。

    【讨论】:

      猜你喜欢
      • 2017-09-04
      • 2021-09-28
      • 2014-04-20
      • 2017-11-10
      • 2017-12-08
      • 2019-02-20
      • 2017-11-02
      • 2017-05-01
      • 1970-01-01
      相关资源
      最近更新 更多