建模流失（监督与无监督）答案

【问题标题】：Modeling Churn (supervised vs. unsupervised)建模流失（监督与无监督）
【发布时间】：2020-09-21 21:07:53
【问题描述】：

非常感谢您的反馈/cmets。

我正在尝试预测我的业务的流失率。我正在处理相对较少的客户流失和 1 年的时间跨度。今天没有流失的客户可能会在明天流失，这在将其视为监督学习问题时似乎会造成问题。

我尝试通过以下方式（引导）解决这个问题：

循环 50 次
对于每个循环，将数据划分为训练/测试 (80%/20%)，并使用从训练中构建的逻辑 reg 获取测试集的流失概率
测试观察的平均流失概率以确定每个观察的整体流失概率
我还捕获了这些概率的标准偏差

在此之后，我可以隔离未流失的客户并获得每个客户流失的概率。我将误报（预计会流失但实际上并未流失）视为可能流失的客户。

当我尝试以类似方式运行随机森林和提升时，该模型以非常高的准确度预测客户流失，并且没有一个未流失客户的流失概率大于 10%（误报率极低）。这与我使用逻辑回归得到的非常不同。这是为什么呢？

这看起来是一种合理的方法吗？如果我能得到任何反馈，我将不胜感激。

【问题讨论】：

标签： machine-learning logistic-regression unsupervised-learning supervised-learning

【解决方案1】：

您的一般方法很好 - 但请注意时间变量。假设您有 12 个月的数据。您必须创建数据快照，并为每次运行创建新的训练/测试群体。例如，对于第一次运行，您使用基于第 1 个月收集的 KPI。确保您仅使用第 1 个月的活跃客户的数据。接下来将目标变量定义为在第 2 个月流失的客户。构建一个模型。使用此模型，但这次 - 将其用于基于第 2 个月收集的数据，并尝试预测哪个客户将在第 3 个月流失。现在，您可以将第 1 个月的数据 + 第 2 个月的目标与第 2 个月的数据 + 第 3 个月的目标结合起来，然后移动到预测第 4 个月 - 依此类推。时间因素对于预测客户流失至关重要。

【讨论】：