赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能(或者说是借出去之后是否会成为坏账 charged off)。这是一个典型的分类问题。
项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction
1.学习目标
理解赛题数据和目标、清楚评分体系。
2.了解赛题
2.1 赛题概况
比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。
2.2数据概况
一般而言,在比赛中的数据的特征都会有介绍(除了匿名特征以外)。Tip:匿名特征,就是未告知数据列所属的性质的特征列。
train.csv
- id 为贷款清单分配的唯一信用证标识(可以挖掘有用信息,比如是否有表示地区标识的内容在里面,便于后面在neo4j数据库中使用社区发现算法、louvain算法)
- loanAmnt 贷款金额
- term 贷款期限(year)
- interestRate 贷款利率
- installment 分期付款金额
- grade 贷款等级(neo4j有用特征)
- subGrade 贷款等级之子级
- employmentTitle 就业职称
- employmentLength 就业年限(年)
- homeOwnership 借款人在登记时提供的房屋所有权状况 (这是一个非常重要的特征,有的话就表示经济实力还错,如果为null则不能简单第将样本去除,而是要考虑其他的处理方式)
- annualIncome 年收入
- verificationStatus 验证状态
- issueDate 贷款发放的月份
- purpose 借款人在贷款申请时的贷款用途类别(可以考虑使用特征交互的手段,例如在《量化金融信用和欺诈防范》课程中第一个大作业中的教育这个特征的处理方式)
- postCode 借款人在贷款申请中提供的邮政编码的前3位数字(典型的社区发现算法的特征,有用)
- regionCode 地区编码
- dti 债务收入比
- delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数
- ficoRangeLow 借款人在贷款发放时的fico所属的下限范围(fico评分是美国多种信用评分中最经典的。包括35%还款历史,30%已借金额,15% 信贷历史,10%新贷款申请,10%贷款种类。)
- ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围
- openAcc 借款人信用档案中未结信用额度的数量(表示负债多少)
- pubRec 贬损公共记录的数量
- pubRecBankruptcies 公开记录清除的数量
- revolBal 信贷周转余额合计
- revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
- totalAcc 借款人信用档案中当前的信用额度总数
- initialListStatus 贷款的初始列表状态
- applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请
- earliesCreditLine 借款人最早报告的信用额度开立的月份
- title 借款人提供的贷款名称
- policyCode 公开可用的策略_代码=1新产品不公开可用的策略_代码=2
- n系列匿名特征 匿名特征n0-n14,为一些贷款人行为计数特征的处理
2.3预测指标
竞赛采用auc作为评价指标。AUC(area under curve)被定义为roc曲线上与坐标轴围成的面积。(我的理解,就是表示数据排序后的结果的好坏)
当然还有其他指标。混淆矩阵、准确率acc,查准率precision,召回率recall,f1 score,P-R曲线,ROC曲线。
(当然还有表示特征有效性的ks系数,iv系数,以及特征稳定性的psi系数)
3.知识图谱的应用
主要是实体和关系
- 金融反欺诈图谱:点->实体,边->实体关系
- 实体:设备号、电话、邮件、身份证、银行卡、信用卡、ip等
- 实体关系:设备-电话,身份证,银行卡;电话-电话、地点;身份证-地址、信用卡、电话等。