1. 算法流程及说明
首先给出决策树计算流程,该图来自于周志华老师的《机器学习》(经典教材)
书中提到,有三种情形会导致递归返回:
- 1 当前节点包含的样本属于同一类别;
- 2 当前属性集为空或者所有样本在所有属性上的取值相同
- 3 当前节点包含的样本集合为空
并且强调了:
- 第2种情形将该节点中含样本最多的类别作为该节点的类别
- 第3种情形将父节点中含样本最多的类别作为该节点的类别
个人认为这两点的强调很重要,否则在递归计算过程中会出错。
理论知识会再写一篇文章进行阐述,本文接下来重点给出当选择标准为信息增益时,决策树的生成过程,剪枝的部分会在另一篇文章阐述。(由于整个计算过程是采用onenote记的笔记,故在这里给出整个笔记的截图)
2. 实例计算

2.1 得到第一层结构

2.2 得到纹理="清晰"子树

2.2.1 得到根蒂="稍蜷"子树

2.2.1.1 得到色泽="乌黑"子树

2.3 得到纹理="稍糊"子树

版权声明:本文为weixin_43684951原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。