利用Adaboost构造多个弱分类器进行分类

随机森林与Adaboost之间的区别

先给每个样本一个初始的权重=1/样本总数
确定选用哪个特征:Gini系数
分别计算左右两边的纯度:1-(预测正确的比例)²-(预测错误的比例)² 然后加权平均
例如Chest Pain这个特征:
左边:1-(3/5)²-(2/5)²=0.48
右边:1-(2/3)²-(1/3)²=0.44
加权平均:0.48*(5/8)+0.44*(3/8)=0.3+0.17=0.47
详情参看: 如何构建一棵决策树
得到Gini系数选最小的作为第一棵树桩
上面确定了树桩使用哪个特征接下来要确定这个树桩(弱分类器)的话语权有多大根据下面的公式:
那么Total Error指的是什么呢
它是错误样本权重(一开始都是一样)相加
因为 Weight>176只分错了一个这个样本权重为1/8 所以Total Error就为1/8
带到公式得到他的话语权为0.97
这样第一棵弱分类器就构造好了然后我们需要更新各个样本的权重使得分类正确的样本权重减小错误的权重增大
我们根据下面的公式来改变错误样本的权重(amount of say = 0.97)

根据下面公式改变正确样本的权重
在这里插入图片描述

确定第一棵树桩后样本权重更新成这样
在这里插入图片描述

我们需要让这些权重合等于1(现在总和只为0.68) 所以我们进行归一化:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述