赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能(或者说是借出去之后是否会成为坏账 charged off)。这是一个典型的分类问题。
项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction

1.学习目标

理解赛题数据和目标、清楚评分体系。

2.了解赛题

2.1 赛题概况

比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。

2.2数据概况

一般而言,在比赛中的数据的特征都会有介绍(除了匿名特征以外)。Tip:匿名特征,就是未告知数据列所属的性质的特征列。
train.csv

  • id 为贷款清单分配的唯一信用证标识(可以挖掘有用信息,比如是否有表示地区标识的内容在里面,便于后面在neo4j数据库中使用社区发现算法、louvain算法)
  • loanAmnt 贷款金额
  • term 贷款期限(year)
  • interestRate 贷款利率
  • installment 分期付款金额
  • grade 贷款等级(neo4j有用特征)
  • subGrade 贷款等级之子级
  • employmentTitle 就业职称
  • employmentLength 就业年限(年)
  • homeOwnership 借款人在登记时提供的房屋所有权状况 (这是一个非常重要的特征,有的话就表示经济实力还错,如果为null则不能简单第将样本去除,而是要考虑其他的处理方式)
  • annualIncome 年收入
  • verificationStatus 验证状态
  • issueDate 贷款发放的月份
  • purpose 借款人在贷款申请时的贷款用途类别(可以考虑使用特征交互的手段,例如在《量化金融信用和欺诈防范》课程中第一个大作业中的教育这个特征的处理方式)
  • postCode 借款人在贷款申请中提供的邮政编码的前3位数字(典型的社区发现算法的特征,有用)
  • regionCode 地区编码
  • dti 债务收入比
  • delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数
  • ficoRangeLow 借款人在贷款发放时的fico所属的下限范围(fico评分是美国多种信用评分中最经典的。包括35%还款历史,30%已借金额,15% 信贷历史,10%新贷款申请,10%贷款种类。)
  • ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围
  • openAcc 借款人信用档案中未结信用额度的数量(表示负债多少)
  • pubRec 贬损公共记录的数量
  • pubRecBankruptcies 公开记录清除的数量
  • revolBal 信贷周转余额合计
  • revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
  • totalAcc 借款人信用档案中当前的信用额度总数
  • initialListStatus 贷款的初始列表状态
  • applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请
  • earliesCreditLine 借款人最早报告的信用额度开立的月份
  • title 借款人提供的贷款名称
  • policyCode 公开可用的策略_代码=1新产品不公开可用的策略_代码=2
  • n系列匿名特征 匿名特征n0-n14,为一些贷款人行为计数特征的处理

2.3预测指标

竞赛采用auc作为评价指标。AUC(area under curve)被定义为roc曲线上与坐标轴围成的面积。(我的理解,就是表示数据排序后的结果的好坏)
当然还有其他指标。混淆矩阵、准确率acc,查准率precision,召回率recall,f1 score,P-R曲线,ROC曲线。
(当然还有表示特征有效性的ks系数,iv系数,以及特征稳定性的psi系数)

3.知识图谱的应用

主要是实体和关系

  • 金融反欺诈图谱:点->实体,边->实体关系
  • 实体:设备号、电话、邮件、身份证、银行卡、信用卡、ip等
  • 实体关系:设备-电话,身份证,银行卡;电话-电话、地点;身份证-地址、信用卡、电话等。
  • 金融分控——1.赛题理解

相关文章:

  • 2021-07-17
  • 2021-08-06
  • 2021-10-21
  • 2021-08-21
  • 2021-09-30
  • 2021-04-19
  • 2021-12-20
  • 2021-11-12
猜你喜欢
  • 2021-12-27
  • 2021-12-07
  • 2021-05-11
  • 2021-08-25
  • 2021-08-20
  • 2021-08-10
  • 2021-04-22
相关资源
相似解决方案