模式识别(六):分类器集成技术之AdaBoost

 

本系列文章由孙旭编辑,转载请注明出处

http://blog.csdn.net/longyindiyi/article/details/20068781

多谢合作!

 

关于 Adaboost 的身世已经有很多博客探讨过,这里我们不再赘述,我们直接讨论算法本身。

 

 

在 Yoav Freund 和 Robert E. Schapire 的原文献《A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting》中,针对两类问题的 AdaBoost 算法描述如下:

 

 

算法的思想是新加入的分类器在训练时,对前面分类器错分的样本进行了特别的照顾,即加大其出现在训练样本中的概率。

 

事实上,在实现上述算法过程时,难点出现在编号为 2 的那一步,即如何向待训练分类器提供满足特定概率分布的样本。

 

处理方式可以参考 Richard Stapenhurst 的代码(boostingDemo)

 

 

indices = sum(repmat(cumsum(p), trainNum, 1) <= ...
                repmat(rand(trainNum, 1), 1, trainNum), 2) + 1;


基本思想是按照概率分布进行重采样处理,这样重新采样得到的样本中,概率大的样本会出现的次数比概率小的样本要大。

 

 

大家如果有什么其他好方法也可以共享出来探讨一下。

 

 

 

 

 

 


版权声明:本文为longyindiyi原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。