下边简单谈一下自己的理解:
先说一下ks
ks值和ks曲线:
将所有样本根据分数值从低到高排序(即坏账率从高到低)均分成10组,分别计算这10组的实际好样本数、坏样本数、累积好样本数、累积坏样本数、累积好样本数占比、累积坏样本数占比,差值。其中实际好坏样本数分别为该组内的好坏样本数,累积好坏样本数为该组累积的好坏样本数,累积好坏样本数占比为累积好坏样本数占总好坏样本数的比值,差值为累积坏样本数占比减去累计好样本数占比。KS指标为差值绝对值的最大值。计算示例如下:

横坐标为每一组,作图:
我们将坏客户作为正样本,计算累积正样本率(cumsum_bad)和累积负样本率(cumsum_good),累积正样本率和累积负样本率差的最大值就是KS值。KS曲线见下图。
由于按照正样本(bad
版权声明:本文为changzoe原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。