2021-12-13 集成模型

第八章——集成模型

8.1 集成模型和它的优势
8.2 集成模型的稳定性
8.3 随机森林的训练
8.4 随机森林的过拟合

8.1 集成模型和它的优势

1、什么是集成模式

  • 单个学习器要么容易欠拟合要么容易过拟合,为了获得泛化性能优良的学习器,可以训练多个个体学习器,通过一定的结合策略,最终形成一个强学习器。这种集成多个个体学习器的方法称为集成学习(ensemble learning)。

在这里插入图片描述

  • 几乎对于所有分类问题,集成模型大都是首选,主要是因为它的效果很好且稳定,另外这些模型也比深度学习模型的可解释性好。
  • 可解释性好:随机森林或升树模型基于决策树,决策树模型的可解释性很好,而且集成模型可简单理解为是决策树的集合。

2、集成模型的优势

  • 具有高准确率、不容易过拟合,有很好的抗噪声能力,对异常点离群点不敏感、实现简单,训练速度快,可以得到变量重要性排序。
  • 集成模型的两大类:Bagging(随机森林)、Boosting(GBDT、XGBoost)

3、构造集成模型

在这里插入图片描述

  • 基于Bagging的预测:训练时每个模型都是相互独立进行训练的;训练完后每个模型都可以参加决策。最终结果等同于做了个平均的操作,这点跟Boosting有很大的区别。

8.2 集成模型的稳定性

1、方差和稳定性

  • 为了模型具有较强的泛化能力,需要解决过拟合问题,而不稳定模型容易过拟合(在训练数据上表现很好,但放在真实线上环境就不行)。
  • 方差可以表示模型的稳定性。集成模型可以减少方差。
  • 假如有N个模型,每个模型在预测时的方差为 σ^2, 则通过N个模型一起预测的方差是:(σ^2)/N。

8.3 随机森林的训练

1、随机森林的核心思想

  • 随机森林是通过多棵决策树共同做决策的。
    在这里插入图片描述

2、随机森林的构造

  • 构造随机森林需要考虑:
    ① 只需要一份训练数据;
    ② 确保多棵决策树要优于单颗决策树;
  • 问题:稳定性的基础是多样性(Diversity),如果得出的多棵决策树之间相关性比较大,稳定性和效果就不太好。
  • 如何构造出很多具备多样性的决策树?
    答:训练样本的随机性、 特征选择时的随机性。

8.4 随机森林的过拟合

1、随机森林的参数


版权声明:本文为studyplayhappy原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。