风控-信用评分卡建立流程

评分卡建模流程

对于风控中的评分卡模型，常用A/B/C三类评分卡。其中A类评分卡指贷前的信用评分卡，用于审批等流程。B类主要是贷中，起到对用户还款进行预警和提醒作用。C类评分卡主要用于催收等催收流程。
下面以A卡为例，大致介绍一下评分卡建模的简易流程（每个步骤暂时没有展开介绍，后续慢慢补充）：
风控-信用评分卡建立流程

评分卡目标确定：确立建立评分卡用途（审批，催收等）
观察期和表现期确定、好坏样本的定义：观察期用于确定建模特征的时间跨度，表现期用于确定用户最终的状态。观察期理论上时间越长越好，一般使用12个左右即可（即近一年的用户特征数据可用于确定用户的信用状态）。表现期的确定使用滚动分析方法。好坏样本的定义必须根据实际业务需求来，直接影响模型的线上效果。
样本提取：提取适量的用于建模的标签（y值）和建模可能用到的特征
特征工程
4.1.数据清洗：包括删除缺失率较大的特征，异常值、无用值、重复值的剔除等。
4.2.特征转换：特征处理，特征组合等过程。具体包括字符型特征转换成数值特征、时间特征转换天数、特征是否需要归一化，特征间相互组合等等。
4.3.特征选取：有过滤式（Filter）（风控中根据IV进行选择就属于过滤式）、包裹时（Wrapper）、嵌入式（Embedding）三种方式。
（具体特征工程步骤需要根据模型调整）
模型确定和训练：挑选适合样本量和特征维度的模型，训练后得到模型参数
模型验证：一般使用时间外样本验证模型效果，一般关注的指标有：
AUC：一般评分卡中，auc>0.6模型能用，auc>0.7效果较好，auc>0.8效果非常好，auc>0.9模型可能出现问题。
KS：一般ks>0.2模型有一点效果，ks>0.3效果适中，ks>0.4效果很好，ks>0.6模型可能出现问题。
排序性：随着评分的升高，逾期比率应该越低（或越高）越好，排序性越好，模型效果越好。
逾期人群的召回率
（当模型的验证指标太好时，很有可能是使用了不该使用的贷后特征，需要特别注意）
拒绝推论：将拒绝件加入建模，防止幸存者偏差，并且能扩大样本量。（谨慎使用，否则会导致线上用户与建模用户的特征分布不一致）
风险校准：主要是对不同的评分卡进行调校，使得不同评分卡的同一分数的用户表现一致。
（上面8、9两步根据评分卡模型的需要和数据表现使用。若需要，进行拒绝推论和风险校准后确定最终模型。）
模型应用：将训练好的模型和模型使用的特征应用在生产环境中。即下面的，评分卡应用流程。
模型监控：使用逾期率、PSI、特征分布稳定性等指标监控模型，防止特征与要求不符或模型效力下降。
模型迭代：使用新的历史数据不断更新模型参数，并根据监控效果调整模型。

评分卡线上流程

输入：传入用户申请用户的模型所需特征，和已经建立好的评分卡模型
输出：输出该用户的评分

风控-信用评分卡建立流程