评分卡建模流程
对于风控中的评分卡模型,常用A/B/C三类评分卡。其中A类评分卡指贷前的信用评分卡,用于审批等流程。B类主要是贷中,起到对用户还款进行预警和提醒作用。C类评分卡主要用于催收等催收流程。
下面以A卡为例,大致介绍一下评分卡建模的简易流程(每个步骤暂时没有展开介绍,后续慢慢补充):
- 评分卡目标确定:确立建立评分卡用途(审批,催收等)
- 观察期和表现期确定、好坏样本的定义:观察期用于确定建模特征的时间跨度,表现期用于确定用户最终的状态。观察期理论上时间越长越好,一般使用12个左右即可(即近一年的用户特征数据可用于确定用户的信用状态)。表现期的确定使用滚动分析方法。好坏样本的定义必须根据实际业务需求来,直接影响模型的线上效果。
- 样本提取:提取适量的用于建模的标签(y值)和建模可能用到的特征
- 特征工程
4.1.数据清洗:包括删除缺失率较大的特征,异常值、无用值、重复值的剔除等。
4.2.特征转换:特征处理,特征组合等过程。具体包括字符型特征转换成数值特征、时间特征转换天数、特征是否需要归一化,特征间相互组合等等。
4.3.特征选取:有过滤式(Filter)(风控中根据IV进行选择就属于过滤式)、包裹时(Wrapper)、嵌入式(Embedding)三种方式。
(具体特征工程步骤需要根据模型调整) - 模型确定和训练:挑选适合样本量和特征维度的模型,训练后得到模型参数
- 模型验证:一般使用时间外样本验证模型效果,一般关注的指标有:
AUC:一般评分卡中,auc>0.6模型能用,auc>0.7效果较好,auc>0.8效果非常好,auc>0.9模型可能出现问题。
KS:一般ks>0.2模型有一点效果,ks>0.3效果适中,ks>0.4效果很好,ks>0.6模型可能出现问题。
排序性:随着评分的升高,逾期比率应该越低(或越高)越好,排序性越好,模型效果越好。
逾期人群的召回率
(当模型的验证指标太好时,很有可能是使用了不该使用的贷后特征,需要特别注意) - 拒绝推论:将拒绝件加入建模,防止幸存者偏差,并且能扩大样本量。(谨慎使用,否则会导致线上用户与建模用户的特征分布不一致)
- 风险校准:主要是对不同的评分卡进行调校,使得不同评分卡的同一分数的用户表现一致。
(上面8、9两步根据评分卡模型的需要和数据表现使用。若需要,进行拒绝推论和风险校准后确定最终模型。) - 模型应用:将训练好的模型和模型使用的特征应用在生产环境中。即下面的,评分卡应用流程。
- 模型监控:使用逾期率、PSI、特征分布稳定性等指标监控模型,防止特征与要求不符或模型效力下降。
- 模型迭代:使用新的历史数据不断更新模型参数,并根据监控效果调整模型。
评分卡线上流程
输入:传入用户申请用户的模型所需特征,和已经建立好的评分卡模型
输出:输出该用户的评分