R 预测模型的预测原因和倾向百分比答案

【问题标题】：R predictive model reason for predicitions and propensity %R 预测模型的预测原因和倾向百分比
【发布时间】：2017-01-29 09:26:06
【问题描述】：

对 R 和机器学习非常陌生，但是我必须开展一个项目来根据许多变量预测客户流失，例如服务期限、发行信用票据的数量、错过交货的数量、价格上涨的数量等。

我正在使用 rpart 和 randomforest，并且得到了一个数据集，每个数据集都有一个流失预测。我能够生成置信度矩阵并查看哪些是重要指标。但是，输出的目的是将要处理的“有风险”客户列表发送给销售团队。

对此真正重要的是，将信心/倾向/可能性百分比附加到流失率，以便我可以按风险顺序进行排名，而且，有没有办法为每个客户附加一个类别/摘要/原因作为为什么他们被预测会流失 - 即客户 abc - 价格上涨的高分，所以我们需要谨慎定价。客户定义 - 错过交货率很高 - 需要修复我们的服务吗？

非常感谢您的帮助。

【问题讨论】：

【解决方案1】：

如果要预测流失概率，可以训练一个逻辑回归模型，用模型预测流失概率。您还可以找出导致客户流失的重要预测变量（请参阅http://www.duplication.net.au/ANZMAC09/papers/ANZMAC2009-678.pdf），您可以将方差分析与它一起使用来查找重要预测变量所解释的方差。
如果你想找到一个特定客户流失发生的原因，你可以学习一个决策树（CART / rpart）模型，然后在决策树中沿着从根到客户所属叶子节点的路径学习了。
最后，randomForest 集成分类器可用于根据 OOB 误差估计找到最重要的流失预测因子。

【讨论】：