金融风控-贷款违约预测-训练营 - Task1
一、 学习知识点概要
- 理解此次金融风控之贷款违约预测挑战赛的赛题,进行具体细节的理解和解读
- 熟悉比赛的具体流程,以及数据挖掘的具体过程
二、学习内容
2.1 理解此次金融风控之贷款违约预测挑战赛的赛题,进行具体细节的理解和解读
赛题解读:
赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。
分类模型:机器通过学习与训练已有的数据,从而预测新数据的类别。即找到一个函数,把观测值匹配到相关的类和标签上。
基本指标:
- 混淆矩阵
(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative ) - 分类准确率(Accuracy)
即所有分类中被正确分类的比例,也称识别率,不适合样本不均衡的情况。
A c c u r a c y = T P + T N T P + T N + F P + F N Accuracy = \frac{TP + TN}{TP + TN + FP + FN}Accuracy=TP+TN+FP+FNTP+TN - 召回率-Recall(也称灵敏率、真正例识别率)召回率的含义是指:正确识别的正例个数在实际为正例的样本数中的占比
R e c a l l = T P T P + F N Recall = \frac{TP}{TP + FN}Recall=TP+FNTP - 精确率(Precision)
精确率的含义是指:预测为真的正样本占所有预测为正样本的比例。
P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP + FP}Precision=TP+FPTP - F度量(F1分数或者F分数)
F度量是是基于以上度量(精确率和召回率)衍生的计算指标,具体计算公式如下:
F 1 − S c o r e = 2 1 P r e c i s i o n + 1 R e c a l l F1-Score = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}}F1−Score=Precision1+Recall12 - P-R曲线(Precision-Recall Curve) P-R曲线是描述精确率和召回率变化的曲线
- 混淆矩阵
金融风控中分类模型的常用综合评估指标:
- ROC
- 全称为 Receiver Operating Characteristic,ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。
TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。
T R P = T P T P + F N \ TRP=\frac{TP}{TP + FN} TRP=TP+FNTP
FPR:在所有实际为负例的样本中,被错误地判断为正例之比率。
F P R = F P F P + T N \ FPR = \frac{FP}{FP + TN} FPR=FP+TNFP
- KS
- 全称为 Kolmogorov-Smirnov统计量,基于经验累积分布函数,是一种非参数的统计检验方法,用于评估模型区分度。一般来说,KS值越大,模型的区分度越好,模型的风险排序能力越强。但也不是说越大越好,过大可能说明存在异常。K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。计算公式如下:
K S = m a x ( T P R − F P R ) \ KS=max(TPR-FPR) KS=max(TPR−FPR) - 一般的评判标准如下:

- AUC
- 全称为Area Under Curve,被定义为 ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。
2.2 熟悉比赛的具体流程,以及数据挖掘的具体过程
- 数据EDA
- 总体分布
- 缺失值处理
- 异常值处理
- 特征工程
- 基础特征构造
- 特征变换,特征衍生
- 特征过滤
- 建模调参
- 相关模型
- 性能评估
- 模型调参
- 模型融合
- 简单加权融合
- boosting/bagging
- stacking/blending
三、学习问题与解答
- KS统计量的具体计算步骤
- 将所有客户按照信用评分升序排列(如果是违约概率则为降序排列);
- 计算每一个分数下(或者将分数进行十等分,等频或者等距,计算每一分数段下)违约客户数和未违约客户数;
- 按照排序分别计算每一分数下(或分数段下)累计违约客户数与整体违约客户总数的比值TPR,累计未违约客户数与整体未违约客户总数的比值FPR;
- 用TPR减FPR即得到每个分数或分数段对应的KS
四、学习思考与总结
- 模型的评判指标有多个,却也不是所有的指标都合适。模型需要综合合适的指标才能得出恰当的评估值
- 第一次接触这方面的东西,一时间有些束手无策,看的云里雾里。随着学习的深入,渐渐的可以拨开云雾见天日,看着自己认真做的笔记有满满的成就感。希望接下来可以继续努力,做好每一次学习
- 越学习就越发现自己的知识面之狭隘,需要学更多的东西扩展自己的知识面
参考链接
版权声明:本文为weixin_47789143原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。