决策树之基尼系数

一、概念

    在决策树中,除了用似然估计推导出的信息熵损失函数之外,还有一个基尼系数(意思是在一个数据集中随机抽出两个样本,其标记不同的概率)

 

                                                           GINI=1-\sum_{i=0}^{m} p_{m}^{2}

二、理解

    怎么理解呢?针对一个贷款人员是否违约的二分类问题,1表示违约,0表示不违约,我们来描述一下。

    当我们用模型对数据进行预测时,预测结果肯定是得到0和1两个标记类别的数据集,但值得注意的是,我们的模型预测准确率肯定达不到100%,所以预测标记为0的数据集肯定会包括实际标记为1的样本。此时我们从预测标记为0的数据集中随机抽出两个样本,其中实际标记为0的用户的占比为p,实际为1的用户占比为(1-p),计算出这两个样本标记不同的概率为p(1-p),但同时我们还有预测标记为1的数据集,抽出两个样本,标记不同的概率也是p(1-p),此时我们就可以得到一个结果为p(1-p)+(1-p)p,这代表了我们模型的预测效果的好坏。

    假设我们的模型是三分类呢?预测标记为0的类别中实际标记为0的样本占比为p0;预测标记为1的类别中实际占比1的样本占比为p1;2类别占比为p2。则分别从三个类别从都抽取出两个样本,得出每个类别中的两个样本不同的概率,然后相加得到模型的预测效果为   p1(1-p1)+p2(1-p2)+p3(1-p3)

    此时我们可以引申为m个类别的预测模型

                                                           GINI=\sum_{i=0}^{m} p_{m}(1-p_{m})

                                                          GINI=\sum_{i=0}^{m} p_{m}-\sum_{i=0}^{m}p_{m}^2

其中

                                                          \sum_{i=0}^{m} p_{m}=1

所以我们得到最终的结果为

                                                          GINI=1-\sum_{i=0}^{m} p_{m}^{2}

三、与决策树的结合

   上面只是举了一些例子进行讲述了自己的简单理解,但是GINI系数较多的用在决策树中是有原因的。因为决策树是一个纵向有深度的预测模型,它通过不断的向下伸展,提高深度,同时将样本划分为不同的类别。值得注意的是,决策树所划分的类别并不是像上面的(二)中一样是标记的类别。举个新的例子,根据颜色来挑选好瓜,如下图,一个只有一层的决策树

 

     此时我们就需要去计算这些墨绿类别西瓜和青绿类别西瓜的GINI系数,然后相加,得到此时的模型分类效果,由于西瓜还有别的特征,模型会进一步加大深度,进行分类,直到得到纯度最好的分类效果。决策树目标是得到纯度最高的划分结果,最好的结果就是每个类别中都只包含相同标记的样本,假如墨绿西瓜都是好瓜,青绿西瓜都是坏瓜,那我们此时就得到了最好的模型。


这是我对基尼系数的一些小的理解,如果有问题希望提出来。。。。。


版权声明:本文为csefrfvdv原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。