python分类分析--随机森林原理及案例

随机森林

1、什么是集成学习方法

集成学习通过建立几个板型组合的来解决单一预测问题,它的工作原理是生成多个分类器/模型,各独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测。决策树过度拟合可以用剪枝或者集成学习方法的随机森林实现。

2、什么是随机森林

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由多个决策树输出的类别的众数而定。例如,如果你训练了5个树,其中有4个树的结果是True,1个树的结果是False,那么最终投票结果就是True。
随机:
森林:包含多个决策树的分类器

3、随机森林的原理过程

随机:特值随机,训练集随机
随机森林算法根据下列算法而建造每棵树:
·用N来表示训练用例(样本)的个数,M表示特征数目。
    。1、一次随机选出一个样本,重红N次。《随机有放回的抽取,有可能出现重复的样本)
    。2、随机去选出m个特征,m << M,建立决策制,每棵树有m个特征。
·采取bootstrap抽样 《随机有放回的抽样》   

4、为什么采取bootstrap抽样

为什么要随机推样训练?

  • 如果不进行随机抽样,每棵树的训练集都一样,那么最终训练出的树分类结果也一样

为什么要有放回地抽样?

  • 如果不是有放回的抽样,那么每棵树的训练样本都是

版权声明:本文为weixin_41685388原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。