1. lift含义一
按照网上的含义,Lift衡量的是,与不利用模型相比,模型的预测能力“变好”了多少
混淆矩阵中,positive表示“逾期”,negative表示“未逾期”
| 预测positive | 预测negative | |
|---|---|---|
| 实际positive | TP | FN |
| 实际negative | FP | TN |
使用模型后,得到的逾期率or坏样本率即T P T P + F P \frac{TP}{TP+FP}TP+FPTP,如果不使用模型,总体的坏账率表示为T P + F N T P + T N + F N + F P \frac{TP+FN}{TP+TN+FN+FP}TP+TN+FN+FPTP+FN,因此lift的计算公式为T P T P + F P T P + F N T P + T N + F N + F P ( 1 ) \frac{\frac{TP}{TP+FP}}{\frac{TP+FN}{TP+TN+FN+FP}} (1)TP+TN+FN+FPTP+FNTP+FPTP(1)
2. 评分模型分区间求Lift
搞了一早上,感谢凡严同学,貌似搞懂了
(1) 评分卡得出来的分数进行区间划分,可以用来作为KS的分类阈值,也就是该阈值之前为坏样本,该阈值之后预测为好样本,这也就是KS的定义为累计坏样本比例与累计好样本比例之间的差值的结果,KS的图可表示为:
(2) 计算每个区间的lift,将该区间所有的样本预测为坏样本进行计算,使用的定义为区间的坏账率占整体坏账率的比例,表示区间里面坏账的风险相对于整体风险的倍数。
因此计算方式表示为:B a d C n t T o t a l C n t B a d C n t . s u m T o t a l C n t . s u m ( 2 ) \frac{\frac{BadCnt}{TotalCnt}}{\frac{BadCnt.sum}{TotalCnt.sum}}(2)TotalCnt.sumBadCnt.sumTotalCntBadCnt(2)
(1)和(2)的联系在于:该区间里面的所有样本均预测为坏样本,而实际的好坏样本与总体的好坏样本个数相同。
区间上的Lift的业务含义表示为:该区间中的样本被拒绝能够带来效益上的提升的倍数