PSI:检验变量的稳定性,当一个变量的psi值大于0.0001时,变量不稳定。一个变量,将它的取值按照分位数来分组一下,每一组中测试模型的客户数占比减去训练模型中的客户数占比再乘以这两者相除的对数,就是这一组的稳定性系数psi,然后变量的psi系数就是把这个变量的所有组的psi相加总起来。
计算某个变量的PSI,上面这段话中测试模型和训练模型替换成两个月份即可。
例如,下表是某个变量,以2018年10月为基准,每个月(以2018年9月为例)都和2018年10月去做一个下面表格的运算。
组号 | 总个数 | 2018年10月各组人数 | 2018年10月各组人数占比 | 2018年9月各组人数 | 2018年9月各组人数占比 | 占比差值 | psi |
1 | 603 | 217 | 0.7233 | 386 | 0.5514 | 0.1719 | 0.0466 |
2 | 103 | 34 | 0.1133 | 69 | 0.0986 | 0.0148 | 0.0021 |
3 | 63 | 11 | 0.0367 | 52 | 0.0743 | -0.0376 | 0.0266 |
4 | 48 | 6 | 0.0200 | 42 | 0.0600 | -0.0400 | 0.0439 |
5 | 183 | 32 | 0.1067 | 151 | 0.2157 | -0.1090 | 0.0768 |
总计 | 1000 | 300 | 1.0000 | 700 | 1.0000 | - | 0.1960 |
第一个0.0466的计算方法:
= (0.7233-0.5514)*LN(0.7233/0.5514)
下面几个数值的计算方法是相同的,最后的0.1960是把上面的几个加起来。
可以把每个月份依次和2018年10月去对比求一个PSI值出来。
如果PSI卡的值是0.1,只要有一个月对比得到的PSI值大于0.1,就要把这个变量踢掉。比如,从上表的结果来看,这个变量就应该被踢掉了。
版权声明:本文为yuxeaotao原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。