模式识别（六）：分类器集成技术之AdaBoost

本系列文章由孙旭编辑，转载请注明出处

http://blog.csdn.net/longyindiyi/article/details/20068781

多谢合作！

关于 Adaboost 的身世已经有很多博客探讨过，这里我们不再赘述，我们直接讨论算法本身。

在 Yoav Freund 和 Robert E. Schapire 的原文献《A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting》中，针对两类问题的 AdaBoost 算法描述如下：

算法的思想是新加入的分类器在训练时，对前面分类器错分的样本进行了特别的照顾，即加大其出现在训练样本中的概率。

事实上，在实现上述算法过程时，难点出现在编号为 2 的那一步，即如何向待训练分类器提供满足特定概率分布的样本。

处理方式可以参考 Richard Stapenhurst 的代码（boostingDemo）

indices = sum(repmat(cumsum(p), trainNum, 1) <= ...
                repmat(rand(trainNum, 1), 1, trainNum), 2) + 1;

基本思想是按照概率分布进行重采样处理，这样重新采样得到的样本中，概率大的样本会出现的次数比概率小的样本要大。

大家如果有什么其他好方法也可以共享出来探讨一下。

原文链接：https://blog.csdn.net/longyindiyi/article/details/23421215