【发布时间】:2020-09-21 21:07:53
【问题描述】:
非常感谢您的反馈/cmets。
我正在尝试预测我的业务的流失率。我正在处理相对较少的客户流失和 1 年的时间跨度。今天没有流失的客户可能会在明天流失,这在将其视为监督学习问题时似乎会造成问题。
我尝试通过以下方式(引导)解决这个问题:
循环 50 次
对于每个循环,将数据划分为训练/测试 (80%/20%),并使用从训练中构建的逻辑 reg 获取测试集的流失概率
测试观察的平均流失概率以确定每个观察的整体流失概率
我还捕获了这些概率的标准偏差
在此之后,我可以隔离未流失的客户并获得每个客户流失的概率。我将误报(预计会流失但实际上并未流失)视为可能流失的客户。
当我尝试以类似方式运行随机森林和提升时,该模型以非常高的准确度预测客户流失,并且没有一个未流失客户的流失概率大于 10%(误报率极低)。这与我使用逻辑回归得到的非常不同。这是为什么呢?
这看起来是一种合理的方法吗?如果我能得到任何反馈,我将不胜感激。
【问题讨论】:
标签: machine-learning logistic-regression unsupervised-learning supervised-learning