【问题标题】:R predictive model reason for predicitions and propensity %R 预测模型的预测原因和倾向百分比
【发布时间】:2017-01-29 09:26:06
【问题描述】:

对 R 和机器学习非常陌生,但是我必须开展一个项目来根据许多变量预测客户流失,例如服务期限、发行信用票据的数量、错过交货的数量、价格上涨的数量等。

我正在使用 rpart 和 randomforest,并且得到了一个数据集,每个数据集都有一个流失预测。我能够生成置信度矩阵并查看哪些是重要指标。但是,输出的目的是将要处理的“有风险”客户列表发送给销售团队。

对此真正重要的是,将信心/倾向/可能性百分比附加到流失率,以便我可以按风险顺序进行排名,而且,有没有办法为每个客户附加一个类别/摘要/原因作为为什么他们被预测会流失 - 即客户 abc - 价格上涨的高分,所以我们需要谨慎定价。客户定义 - 错过交货率很高 - 需要修复我们的服务吗?

非常感谢您的帮助。

【问题讨论】:

    标签: r machine-learning random-forest prediction rpart


    【解决方案1】:
    1. 如果要预测流失概率,可以训练一个逻辑回归模型,用模型预测流失概率。您还可以找出导致客户流失的重要预测变量(请参阅http://www.duplication.net.au/ANZMAC09/papers/ANZMAC2009-678.pdf),您可以将方差分析与它一起使用来查找重要预测变量所解释的方差。
    2. 如果你想找到一个特定客户流失发生的原因,你可以学习一个决策树(CART / rpart)模型,然后在决策树中沿着从根到客户所属叶子节点的路径学习了。
    3. 最后,randomForest 集成分类器可用于根据 OOB 误差估计找到最重要的流失预测因子。

    【讨论】:

    • 谢谢,有道理。然而,第 2 点听起来非常手动 - 如果我有 10 万客户,我是否需要为每个客户跟踪变量树?有没有办法确定每个客户的根源?谢谢
    猜你喜欢
    • 2020-05-16
    • 2014-02-17
    • 1970-01-01
    • 1970-01-01
    • 2023-04-05
    • 1970-01-01
    • 2022-06-22
    • 2023-03-27
    • 1970-01-01
    相关资源
    最近更新 更多