数据挖掘——最佳划分度量(1)

前言

有很多度量可以用来确定划分记录的最佳方法。选择最佳划分的度量通常是根据划分后子女结点不纯性的程度。不纯的程度越低,类分布就会越倾斜。
例子:
类分布为(0,1)的结点具有零不纯性(是比较好的)
均衡分布(0.5,0.5)的结点具有最高的不纯性


提示:以下是本篇文章正文内容,下面案例可供参考

一、不纯性度量的公式

注意:p(i|t)表示给定结点t中属于i类的比例

①熵(信息论中使用较多)
Entropy(t)=在这里插入图片描述②基尼值
Gini(t)=
在这里插入图片描述③分类误差
Classification error(t)=
在这里插入图片描述

!以下是三种不纯性度量方法的计算实例:

在这里插入图片描述

二、测试条件的效果

为了确定测试条件的效果,需要比较父结点(划分前)的不纯程度和子女结点(划分后)的不纯程度,他们的差越大,测试的条件越好。增益∆是一种可以用来确定划分效果的标准
在这里插入图片描述①I(parent):父结点(给定结点)的不纯性度量
②N:父结点上的记录总数
③k:属性个数
④N(Vj):与子女结点Vj相关联的记录个数
⑤当选择熵作为不纯度度量时,熵的差就是信息增益

例题如下

在这里插入图片描述
1、测试效果:用熵的不纯性度量公式

对方案A
在这里插入图片描述解释:I(parent)=1→因为父结点是完全不分类

对方案B
在这里插入图片描述2、用分类误差的不纯性度量公式

对方案A
在这里插入图片描述

对方案B
在这里插入图片描述

通过计算结果可知,方案B的分类效果更好


总结

这篇文章简单介绍了数据挖掘中对于分类的一般衡量方法,运用理论和例题结合的方式帮助理解。


版权声明:本文为VictoriaYuri原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。