机器学习sklearn

Day1

什么是sklearn

scikit-learn，又写作sklearn，sklearn是一个开源的基于python语言的机器学习工具包

它通过Numpy，SciPy和Matplotlib等python数值计算的库实现高效的算法应用

涵盖了几乎所有主流机器学习算法

为什么是sklearn

友好且有深度；有用但缺乏优秀的解读；是通往数据挖掘工程师的起点

什么是Graphviz

在开发工作中，为代码添加注释是为了保证代码可维护性的一个重要方面，但是仅提供注释也是不够的，如果系统越复杂功能越多，涉及的模块越多，仅凭借注释很难理解。这时候我们需要思维导图，类似于Xmind，但通过graphviz来实现的。

在工程应用中，用python手写代码来从头实现一个算法的可能性非常低，这样不仅耗时耗力，还不一定能够写出3构架清晰，稳定性强的模型。更多情况下，是分析采集到的数据，根据数据特征选择适合的算法，在工具包中调用算法，调整算法的参数，获取需要的信息，从而实现算法效率和效果之间的平衡。而sklearn，正是这样一个可以帮助我们高效实现算法应用的工具包。

决策树

概述

1. 决策树是如何工作的

决策树（Decision Tree）是一种非参数（不限制数据的结构和类型，可以处理各种各样的数据类型）的有监督学习（必须有标签，即告诉算法答案）方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域都有广泛的应用。

我们来简单了解一下决策树是如何工作的。决策树算法的本质是一种图结构，我们只需要问一系列问题就可以对数据进行分类了。

比如说，来看看下面这组数据集，这是一系列已知物种以及所属类别的数据
我们现在的目标是，将动物们分为哺乳类和非哺乳类。那根据已经收集到的数据，决策树算法为我们算出了下面的这棵决策树：：（类标号是标签）

假如我们现在发现了一种新物种Python，它是冷血动物，体表带鳞片，并且不是胎生，我们就可以通过这棵决策树来判断它的所属类别。（通过体温，胎生等特征来判断）

可以看出，在这个决策过程中，我们一直在对记录的特征进行提问。最初的问题所在的地方叫做根节点，在得到结论前的每一个问题都是中间节点，而得到的每一个结论（动物的类别）都叫做叶子节点。

关键概念：节点

根节点：没有进边，有出边。包含最初的，针对特征的提问。

中间节点：既有进边也有出边，进边只有一条，出边可以有很多条。都是针对特征的提问。

叶子节点：有进边，没有出边，每个叶子节点都是一个类别标签。

*子节点和父节点：在两个相连的节点中，更接近根节点的是父节点，另一个是子节点。

1.决策树算法的核心是要解决两个问题：

①如何从数据表中找出最佳节点和最佳分枝？

②如何让决策树停止生长，防止过拟合？

几乎所有决策树有关的模型调整方法，都围绕这两个问题展开。这两个问题背后的原理十分复杂。

决策树是一种简单的机器学习方法。决策树经过训练之后，看起来像是以树状形式排列的一系列if-then语句。一旦我们有了决策树，只要沿着树的路径一直向下，正确回答每一个问题，最终就会得到答案。沿着最终的叶节点向上回溯，就会得到一个有关最终分类结果的推理过程。

sklearn中的决策树

模块sklearn.tree

sklearn中所有决策树的类都在”tree“这个模块之下。这个模块总共包含五个类：

tree.DecisionTreeClassiﬁer	分类树
tree.DecisionTreeRegressor	回归树
tree.export_graphviz	将生成的决策树导出为DOT格式，画图专用
tree.ExtraTreeClassiﬁer	高随机版本的分类树
tree.ExtraTreeRegressor	高随机版本的回归树

主要讲解分类树和回归树，并用图像呈现。

sklearn的基本建模流程

在那之前，我们先来了解一下sklearn建模的基本流程。

在这个流程下，分类树对应的代码是：

2.DecisionTreeClassiﬁer（分类树）与红酒数据集

class sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None,min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

(括号中的是分类树所有的参数）

2.1重要参数

2.1.1criterion

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个“最佳”的指标叫做“不纯度”。通常来说，不纯度越低，决策树对训练集的拟合越好。现在使用的决策树算法在分枝方法上的核心大多是围绕在对某个不纯度相关指标的最优化上。

(不纯度是衡量指标)

不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

Criterion这个参数正是用来决定不纯度的计算方法的。

1）输入”entropy“，使用信息熵（Entropy）

2）输入”gini“，使用基尼系数（Gini Impurity）

注：

基尼不纯度：将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。

熵：代表集合的无序程度

信息中排除了冗余后的平均信息量称为“信息熵”

熵和基尼不纯度之间的主要区别在于，熵达到峰值的过程要相对慢一些。因此，熵对于混乱集合的判罚要更重一些。

信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如湖南产生的地震了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起来了（肯定发生嘛，没什么信息量）。

信息熵还可以作为一个系统复杂程度的度量，如果系统越复杂，出现不同情况的种类越多，那么他的信息熵是比较大的。

如果一个系统越简单，出现情况种类很少（极端情况为1种情况，那么对应概率为1，那么对应的信息熵为0），此时的信息熵较小。

其中t代表给定的节点，i代表标签的任意分类，p(i|t)代表标签分类i在节点t上所占的比例。注意，当使用信息熵时，sklearn实际计算的是基于信息熵的信息增益(Information Gain)，即父节点的信息熵和子节点的信息熵之差。

比起基尼系数，信息熵对不纯度更加敏感，对不纯度的惩罚最强。但是在实际使用中，信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候，即当模型在训练集和测试集上都表现不太好的时候，使用信息熵。当然，这些不是绝对的。

参数	criterion
如何影响模型?	确定不纯度的计算方法，帮忙找出最佳节点和最佳分枝，不纯度越低，决策树对训练集的拟合越好
可能的输入有哪些？	不填默认基尼系数，填写gini使用基尼系数，填写entropy使用信息增益
怎样选取参数？	通常就使用基尼系数(默认）数据维度很大，噪音很大时使用基尼系数维度低，数据比较清晰的时候，信息熵和基尼系数没区别当决策树的拟合程度不够的时候，使用信息熵两个都试试，不好就换另外一个

到这里，决策树的基本流程其实可以简单概括如下：

（选取不纯度指标最优特征不断分枝）

直到没有更多的特征可用，或整体的不纯度指标已经最优，决策树就会停止生长。

建立一棵树

1.导入需要的算法库和模块

#1.导入需要的算法和模块

from sklearn import tree #导入树

from sklearn.datasets import load_wine #从sklearn的datasets导入生成数据集的类（红酒数据）

from sklearn.model_selection import train_test_split #从sklearn模型选择这个模块导入分测试集和训练集的类

datasets是sklearn自带的带有各种各样的数据和数据结构的库（可以从中导入各种各样知名的数据）

2.探索数据

#2.探索数据

wine = load_wine() #数据实例化

wine.data #wine是字典，data是特征矩阵

-->array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,

1.065e+03],

[1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,

1.050e+03],

...,

[1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,

5.600e+02]])

wine.target #target是标签矩阵，0,1,2三分类的数据集

-->array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,

2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,

2, 2])

wine.data.shape #查看数据结构 178行，13列即13个特征

-->(178, 13)

#如果wine是一张表

import pandas as pd

#concat是连接功能

pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1)

#第一列是索引，0-12是特征，最后一列是标签

0	1	2	3	4	5	6	7	8	9	10	11	12	0
0	14.23	1.71	2.43	15.6	127.0	2.80	3.06	0.28	2.29	5.64	1.04	3.92	1065.0	0
1	13.20	1.78	2.14	11.2	100.0	2.65	2.76	0.26	1.28	4.38	1.05	3.40	1050.0	0
2	13.16	2.36	2.67	18.6	101.0	2.80	3.24	0.30	2.81	5.68	1.03	3.17	1185.0	0
3	14.37	1.95	2.50	16.8	113.0	3.85	3.49	0.24	2.18	7.80	0.86	3.45	1480.0	0
4	13.24	2.59	2.87	21.0	118.0	2.80	2.69	0.39	1.82	4.32	1.04	2.93	735.0	0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
173	13.71	5.65	2.45	20.5	95.0	1.68	0.61	0.52	1.06	7.70	0.64	1.74	740.0	2
174	13.40	3.91	2.48	23.0	102.0	1.80	0.75	0.43	1.41	7.30	0.70	1.56	750.0	2
175	13.27	4.28	2.26	20.0	120.0	1.59	0.69	0.43	1.35	10.20	0.59	1.56	835.0	2
176	13.17	2.59	2.37	20.0	120.0	1.65	0.68	0.53	1.46	9.30	0.60	1.62	840.0	2
177	14.13	4.10	2.74	24.5	96.0	2.05	0.76	0.56	1.35	9.20	0.61	1.60	560.0	2

178 rows × 14 columns

wine.feature_names #特征的名字

-->['alcohol',

'malic_acid',

'ash',

'alcalinity_of_ash',

'magnesium',

'total_phenols',

'flavanoids',

'nonflavanoid_phenols',

'proanthocyanins',

'color_intensity',

'hue',

'od280/od315_of_diluted_wines',

'proline']

wine.target_names #标签的名字

-->array(['class_0', 'class_1', 'class_2'], dtype='<U7')

3.分训练集和测试集

#分训练集和测试集(test_size=0.3即30%做测试集，70%做训练集)，注意X,X,Y,Y的顺序

Xtrain,Xtest,Ytrain,Ytest = train_test_split(wine.data,wine.target,test_size=0.3)

#查看训练集的结构

Xtrain.shape

-->(124, 13)

Xtest.shape

-->(54, 13)

Ytrain

-->array([2, 0, 2, 1, 2, 0, 2, 2, 0, 2, 2, 2, 1, 1, 0, 0, 1, 0, 1, 2, 0, 1,

2, 2, 2, 2, 1, 1, 1, 1, 2, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0,

0, 0, 2, 2, 2, 1, 2, 2, 1, 0, 2, 0, 2, 1, 1, 1, 2, 2, 0, 0, 0, 1,

1, 0, 2, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 2, 1, 0, 0, 2,

1, 2, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 2, 0, 1, 0, 0, 0, 1, 1, 0,

2, 2, 1, 0, 2, 0, 1, 2, 0, 2, 1, 1, 2, 1])

Ytest

-->array([1, 0, 1, 0, 2, 0, 0, 2, 1, 2, 0, 1, 0, 2, 1, 0, 1, 0, 1, 1, 2, 2,

1, 0, 1, 1, 1, 0, 2, 2, 2, 0, 0, 2, 2, 1, 0, 1, 1, 0, 0, 2, 2, 0,

1, 1, 1, 1, 1, 0, 0, 1, 2, 0])

4.建立模型

#建立模型

#1.实例化

clf = tree.DecisionTreeClassifier(criterion="entropy")

#2.用训练集数据训练模型

clf = clf.fit(Xtrain,Ytrain)

#3.使用接口导入测试集

score = clf.score(Xtest,Ytest) #返回预测准确度accuracy

socre

-->0.9074074074074074

5.画出一棵树吧

#画出一棵树

feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']

import graphviz

#export_graphviz（参数1（输入已经训练好的模型），参数2（特征名字），参数3（标签名字）

#,filled:是否填充颜色，rounded:True节点框为圆形，False为方形）

dot_data = tree.export_graphviz(clf

,feature_names = feature_name

,class_names = ["琴酒","雪梨","贝尔摩德"]

,filled=True

,rounded=True)

#导出树

graph = graphviz.Source(dot_data)

graph

有根节点，许多的中间节点和叶子节点，每个节点第一行都是特征名，每个节点都是按照特征分类，树按照特征来提问（按照节点第一行的问题判断True，False然后往下分枝）

entropy是“不纯度”的指标，越往下entropy越小，到叶子节点即不纯度为0时就可以选出一个标签类别

samples为每个节点包含的样本数量，values为每个标签所占的样本数量

颜色越深表示“不纯度”越低

6.探索决策树

#探索决策树

#特征的重要性（没有使用的特征：重要性为0；对决策树贡献越高，重要性越高）

clf.feature_importances_

-->array([0.11189824, 0. , 0. , 0. , 0. ,

0. , 0.03526956, 0. , 0. , 0. ,

0.07877814, 0.41323447, 0.36081959])

#创建元组，重要性最高的为根节点

[*zip(feature_name,clf.feature_importances_)]

-->[('酒精', 0.1118982368980567),

('苹果酸', 0.0),

('灰', 0.0),

('灰的碱性', 0.0),

('镁', 0.0),

('总酚', 0.0),

('类黄酮', 0.035269559663226854),

('非黄烷类酚类', 0.0),

('花青素', 0.0),

('颜色强度', 0.0),

('色调', 0.07877814105370433),

('od280/od315稀释葡萄酒', 0.41323446945364667),

('脯氨酸', 0.3608195929313654)]

模型，score会在某个值附近波动，引起步骤5中画出来的每一棵树都不一样。它为什么会不稳定呢？如果使用其他数据集，它还会不稳定吗？

我们之前提到过，无论决策树模型如何进化，在分枝上的本质都还是追求某个不纯度相关的指标的优化，而正如我们提到的，不纯度是基于节点来计算的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但最优的节点能够保证最优的树吗？集成算法被用来解决这个问题：sklearn表示，既然一棵树不能保证最优，那就建更多的不同的树，然后从中取最好的。怎样从一组数据集中建不同的树？在每次分枝时，不从使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分枝用的节点。这样，每次生成的树也就不同了。（每次选取不同特征，不纯度不同，每次树也不同，从而能找出更多的树，找最优的树，但是结果不稳定）

2.1.2random_state & splitter

random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集，只会使用3个特征），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

splitter也是用来控制决策树中的随机选项的，有两种输入值，输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看），输入“random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合，用这两个参数来帮助你降低树建成之后过拟合的可能性。当然，树一旦建成，我们依然是使用剪枝参数来防止过拟合。（根据分数来决定splitter=”best”还是”random”，哪个分数高选哪个）

增加了splitter="random"，随机性更强，树变得更大更深

2.1.3剪枝参数

在不加限制的情况下，一棵决策树会生长到衡量不纯度的指标最优，或者没有更多的特征可用为止。这样的决策树往往会过拟合，这就是说，它会在训练集上表现很好，在测试集上却表现糟糕。我们收集的样本数据不可能和整体的状况完全一致，因此当一棵决策树对训练数据有了过于优秀的解释性，它找出的规则必然包含了训练样本中的噪声，并使它对未知数据的拟合程度不足。（过拟合：即完美适应训练数据，但无法适应其他数据,例如训练集上1.0，测试集只有0.8）

#我们的树对训练集的拟合程度

score_train = clf.score(Xtrain, Ytrain)

score_train

-->1.0

为了让决策树有更好的泛化性，我们要对决策树进行剪枝。剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心。sklearn为我们提供了不同的剪枝策略：

max_depth

限制树的最大深度，超过设定深度的树枝全部剪掉

这是用得最广泛的剪枝参数，在高维度低样本量时非常有效。决策树多生长一层，对样本量的需求会增加一倍，所以限制树深度能够有效地限制过拟合。在集成算法中也非常实用。实际使用时，建议从=3开始尝试，看看拟合的效果再决定是否增加设定深度。

min_samples_leaf & min_samples_split

min_samples_leaf限定，一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样本，否则分枝就不会发生，或者，分枝会朝着满足每个子节点都包含min_samples_leaf个样本的方向去发生

一般搭配max_depth使用，在回归树中有神奇的效果，可以让模型变得更加平滑。这个参数的数量设置得太小会引起过拟合，设置得太大就会阻止模型学习数据。一般来说，建议从=5开始使用。如果叶节点中含有的样本量变化很大，建议输入浮点数作为样本量的百分比来使用。同时，这个参数可以保证每个叶子的最小尺寸，可以在回归问题中避免低方差，过拟合的叶子节点出现。对于类别不多的分类问题，=1通常就是最佳选择。

（例：若min_samples_leaf设置为5，而图中第二层分枝后第一个子节点的values只有2<5，则会把整个第二层都砍掉，然后上面包含25个样本的节点就不会再分枝。第二种情况：第二层第一个节点样本数变为5个，第二个节点样本数变为20个，然后可以继续分枝。

min_samples_split限定，一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分枝，否则分枝就不会发生。

（例：若设置min_samples_split为5，则下图中samples为2<5，则无法继续分枝）

#参数max_depth，min_samples_leaf & min_samples_split

clf = tree.DecisionTreeClassifier(criterion="entropy"

,random_state=30

,splitter="random"

,max_depth=3

#max_depth=3，score相比之前没变化，限制深度为3则可以减少无效的计算

# ,min_samples_leaf=10

#加上之后，score变低了变为0.85，则不加该参数

# ,min_samples_split=25

#加上之后，score变低了变为0.85，则不加该参数

)

clf = clf.fit(Xtrain, Ytrain)

dot_data = tree.export_graphviz(clf

,feature_names= feature_name

,class_names=["琴酒","雪莉","贝尔摩德"]

,filled=True

,rounded=True

)

graph = graphviz.Source(dot_data)

graph

根据最终结果调整参数

max_features & min_impurity_decrease

一般max_depth使用，用作树的”精修“

max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃。和max_depth异曲同工，max_features是用来限制高维度数据的过拟合的剪枝参数，但其方法比较暴力，是直接限制可以使用的特征数量而强行使决策树停下的参数，在不知道决策树中的各个特征的重要性的情况下，强行设定这个参数可能会导致模型学习不足。如果希望通过降维的方式防止过拟合，建议使用PCA，ICA或者特征选择模块中的降维算法。

min_impurity_decrease限制信息增益（父节点和子节点信息熵的差）的大小，信息增益小于设定数值（即对决策树贡献较小，不分枝可以减少计算）的分枝不会发生。这是在0.19版本中更新的功能，在0.19版本之前时使用min_impurity_split。

确认最优的剪枝参数

那具体怎么来确定每个参数填写什么值呢？这时候，我们就要使用确定超参数的曲线来进行判断了，继续使用我们已经训练好的决策树模型clf。超参数的学习曲线，是一条以超参数的取值为横坐标，模型的度量指标为纵坐标的曲线，它是用来衡量不同超参数取值下模型的表现的线。在我们建好的决策树里，我们的模型度量指标就是score。

【示例】

import matplotlib.pyplot as plt

test = []

for i in range(10):

clf = tree.DecisionTreeClassifier(max_depth=i+1 #让max_depth在1-10循环

,criterion="entropy"

,random_state=30

,splitter="random"

)

clf = clf.fit(Xtrain, Ytrain)

score = clf.score(Xtest, Ytest) #分别得出max_depth1——10的结果

test.append(score)

#用分数的合集，画学习曲线

plt.plot(range(1,11),test,color="red",label="max_depth")

plt.legend()

plt.show()

结果：可以从学习曲线中看出max_depth在3的时候已经达到了最好的效果，同时也可以通过学习曲线判断别的参数。

思考：

1. 1. 1. 剪枝参数一定能够提升模型在测试集上的表现吗？

----> 调参没有绝对的答案，一切都是看数据本身。

1. 1. 1. 这么多参数，一个个画学习曲线？

---->在泰坦尼克号的案例中，我们会解答这个问题。

无论如何，剪枝参数的默认值会让树无尽地生长，这些树在某些数据集上可能非常巨大，对内存的消耗也非常巨大。所以如果你手中的数据集非常巨大，你已经预测到无论如何你都是要剪枝的，那提前设定这些参数来控制树的复杂性和大小会比较好。

2.1.4 目标权重参数

class_weight & min_weight_fraction_leaf（具有一定难度）

完成样本标签平衡的参数。样本不平衡是指在一组数据集中，标签的一类天生占有很大的比例。（例如[0,0,0,0,0,0,0,0,1],标签0占有很大的比例）

比如说，在银行要判断“一个办了信用卡的人是否会违约”，就是是vs否（1%：99%）的比例。这种分类状况下，即便模型什么也不做，全把结果预测成“否”，正确率也能有99%。因此我们要使用class_weight参数对样本标签进行一定的均衡，给少量的标签更多的权重，让模型更偏向少数类，向捕获少数类的方向建模。该参数默认None，此模式表示自动给与数据集中的所有标签相同的权重。

有了权重之后，样本量就不再是单纯地记录数目，而是受输入的权重影响了，因此这时候剪枝，就需要搭配min_ weight_fraction_leaf这个基于权重的剪枝参数来使用。另请注意，基于权重的剪枝参数（例如min_weight_ fraction_leaf）将比不知道样本权重的标准（比如min_samples_leaf）更少偏向主导类。如果样本是加权的，则使用基于权重的预修剪标准来更容易优化树结构，这确保叶节点至少包含样本权重的总和的一小部分。

2.2 重要属性和接口

属性是在模型训练之后，能够调用查看的模型的各种性质。对决策树来说，最重要的是feature_importances_，能够查看各个特征对模型的重要性。

sklearn中许多算法的接口都是相似的，比如说我们之前已经用到的ﬁt和score，几乎对每个算法都可以使用。除了这两个接口之外，决策树最常用的接口还有apply和predict。apply中输入测试集返回每个测试样本所在的叶子节点的索引，predict输入测试集返回每个测试样本的标签。返回的内容一目了然并且非常容易，大家感兴趣可以自己下去试试看。

在这里不得不提的是，所有接口中要求输入X_train和X_test的部分，输入的特征矩阵必须至少是一个二维矩阵（即至少两个特征）。sklearn不接受任何一维矩阵作为特征矩阵被输入。

注：

如果你的数据的确只有一个特征，那必须用reshape(-1,1)来给矩阵增维；如果你的数据只有一个特征和一个样本，使用reshape(1,-1)来给你的数据增维。

【示例】

#apply返回每个测试样本所在的叶子节点的索引

clf.apply(Xtest)

-->array([ 4, 16, 4, 4, 13, 4, 11, 11, 16, 16, 13, 13, 4, 8, 16, 7, 11,

16, 11, 11, 4, 13, 11, 16, 13, 11, 16, 16, 16, 16, 16, 16, 13, 4,

16, 4, 11, 16, 16, 16, 4, 4, 8, 11, 6, 16, 13, 4, 16, 11, 4,

4, 16, 16], dtype=int64)

#predict返回每个测试样本的分类/回归结果

clf.predict(Xtest)

-->array([2, 0, 2, 2, 1, 2, 1, 1, 0, 0, 1, 1, 2, 1, 0, 2, 1, 0, 1, 1, 2, 1,

1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 2, 1, 0, 0, 0, 2, 2, 1, 1,

1, 0, 1, 2, 0, 1, 2, 2, 0, 0])

至此，我们已经学完了分类树DecisionTreeClassiﬁer和用决策树绘图（export_graphviz）的所有基础。我们讲解了决策树的基本流程，分类树的八个参数，一个属性，四个接口，以及绘图所用的代码。

八个参数：Criterion，两个随机性相关的参数（random_state，splitter），五个剪枝参数（max_depth,min_samples_split，min_samples_leaf，max_feature，min_impurity_decrease）

一个属性：feature_importances_

四个接口：ﬁt，score，apply，predict

有了这些知识，基本上分类树的使用大家都能够掌握了，接下来再到实例中去磨练就好。

3DecisionTreeRegressor（回归树）

class sklearn.tree.DecisionTreeRegressor(criterion=’mse’,splitter=’best’, max_depth=None,

min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features=None,random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, presort=False)

几乎所有参数，属性及接口都和分类树一模一样。需要注意的是，在回归树种，没有标签分布是否均衡（回归是连续型变量）的问题，因此没有class_weight这样的参数。

3.1重要参数，属性及接口

criterion

回归树衡量分枝质量的指标，支持的标准有三种：

1）输入"mse"使用均方误差mean squared error(MSE)（均方误差：指参数估计值与参数真值之差平方的期望值，反映估计量与被估计量之间差异程度的一种度量），父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准，这种方法通过使用叶子节点的均值来最小化L2损失

2）输入“friedman_mse”使用费尔德曼均方误差，这种指标使用弗尔德曼针对潜在分枝中的问题改进后的均方误差

3）输入"mae"使用平均绝对误差MAE（mean absolute error）（平均绝对误差：所有单个观测值与算术平均值的偏差的绝对值的平均。平均绝对误差可以避免误差相互抵消的问题，因而可以准确反映实际预测误差的大小。），这种指标使用叶节点的中值来最小化L1损失。属性中最重要的依然是feature_importances_，接口依然是apply, ﬁt, predict, score最核心。

其中（u是残差平方和（MSE * N）（即所有样本点的MSE之和），v是总平方和，N是样本数量，i是每一个数据样本，ﬁ是模型回归出的数值，yi是样本点i实际的数值标签。y帽是真实数值标签的平均数）。R平方可以为正为负(-无穷—>1)（如果模型的残差平方和u远远大于(>>)模型的总平方和v，模型非常糟糕，R平方就会为负），而均方误差永远为正。

值得一提的是，虽然均方误差(mse)永远为正，但是sklearn当中使用均方误差(mse)作为评判标准时，却是计算”负均方误差“（neg_mean_squared_error）。这是因为sklearn在计算模型评估指标的时候，会考虑指标本身的性质，均方误差本身是一种误差，所以被sklearn划分为模型的一种损失(loss)，因此在sklearn当中，都以负数表示。真正的均方误差MSE的数值，其实就是neg_mean_squared_error（负均方误差）去掉负号的数字。(因为sklearn会自动使用负均方误差计算）

简单看看回归树是怎样工作的

注：#cross_val_score()：重要参数

第一个：模型评估器，可以使分类，回归可以是任何实例化后的算法模型，此处是回归regressor

第二个：完整的不需要划分训练集，测试集的数据

第三个：完整的不需要划分训练集、测试集数据标签

第四个：数据划分为n份，每次1份作测试，其他n-1训练，通常为5份

第五个：scoring=''，此处使用负均方误差衡量模型，如果默认不填对于回归来说，返回的是R²

交叉验证是用来观察模型的稳定性的一种方法，我们将数据划分为n份，依次使用其中一份作为测试集，其他n-1份作为训练集，多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分（不同的训练集和测试集）会干扰模型的结果，因此用交叉验证n次的结果求出的平均值，是对模型效果的一个更好的度量。

【示例】

#导入波士顿房价数据

from sklearn.datasets import load_boston

from sklearn.model_selection import cross_val_score

from sklearn.tree import DecisionTreeRegressor

#波士顿房价数据标签为连续性数值，所以不能用分类树

boston = load_boston()

#交叉验证

regressor = DecisionTreeRegressor(random_state=0)

#五个重要参数

#第一个：模型评估器，可以使分类，回归可以是任何实例化后的算法模型，此处是回归regressor

#第二个：完整的不需要划分训练集，测试集的数据

#第三个：完整的不需要划分训练集、测试集数据标签

#第四个：数据划分为n份，每次1份作测试，其他n-1训练，通常为5份

#第五个：scoring=''，此处使用负均方误差衡量模型，如果默认不填对于回归来说，返回的是R²

cross_val_score(regressor, boston.data, boston.target, cv=10,

scoring = "neg_mean_squared_error")

-->array([-16.41568627, -10.61843137, -18.30176471, -55.36803922,

-16.01470588, -44.70117647, -12.2148 , -91.3888 ,

-57.764 , -36.8134 ])

3.2实例：一维回归的图像绘制

接下来我们到二维平面上来观察决策树是怎样拟合一条曲线的。我们用回归树来拟合正弦曲线，并添加一些噪声来观察回归树的表现。

1.导入需要的库

#导入需要的库

import numpy as np

from sklearn.tree import DecisionTreeRegressor

import matplotlib.pyplot as plt

2.创建一条含有噪声的正弦曲线

在这一步，我们的基本思路是，先创建一组随机的，分布在0~5上的横坐标轴的取值(x)，然后将这一组值放到sin函数中去生成纵坐标的值(y)，接着再到y上去添加噪声。全程我们会使用numpy库来为我们生成这个正弦曲线。

#创建一条含有噪声的正弦曲线

#生成随机数种子，保证每次生成固定的随机数

rng = np.random.RandomState(1)

#.rand()随机生成0-1随机数,输入10返回10个，(2,3)则返回2行3列

#5*rng.rand(80,1)生成0-5的二维,80行一列

#生成x，随着x轴从0开始从小到大排序，用np.sort排序，作为X轴数据

X = np.sort(5 * rng.rand(80,1), axis=0)

#生成正弦曲线，y轴中数据只能是一维，所以用ravel()降维，作为y轴数据

y = np.sin(X).ravel()

plt.figure()

plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")

#先画图看效果

这是一个数据完美的分布（因为是sin（）算出来的），但现实中不可能采集到与原本数据分布完全相同的数据，所以要增加噪声（通过给某些数字增加或减去随机数），来模拟现实中抽样遇到的问题

#在正弦曲线上增加噪声，y中每5个步长随机加上一个随机数（总共16个），3*(0.5-rng.rand(16))处于（-1.5，1.5）之间

y[::5] += 3 * (0.5 - rng.rand(16))

plt.figure()

plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")

增加噪声后的图像

注：

ravel（）

#np.random.rand(数组结构)，生成随机数组的函数

#了解降维函数ravel()的用法

np.random.random((2,1))

-->array([[0.83819537],

[0.81137384]])

np.random.random((2,1)).ravel()

-->array([0.92426905, 0.55718609])

np.random.random((2,1)).ravel().shape

-->(2,)

3.实例化&训练模型

#实例化&训练模型

#建两个模型，想知道不同拟合效果下，回归树是如何表现

#最大深度越小，剪枝越严重，会限制模型的拟合，同时可以防止过拟合

#实例化

regr_1 = DecisionTreeRegressor(max_depth=2)

regr_2 = DecisionTreeRegressor(max_depth=5)

#训练模型

regr_1.fit(X, y)

regr_2.fit(X, y)

-->

DecisionTreeRegressor(ccp_alpha=0.0, criterion='mse', max_depth=5,

max_features=None, max_leaf_nodes=None,

min_impurity_decrease=0.0, min_impurity_split=None,

min_samples_leaf=1, min_samples_split=2,

min_weight_fraction_leaf=0.0, presort='deprecated',

random_state=None, splitter='best')

4.测试集导入模型，预测结果

#导入测试集，预测结果

#np.arange(开始点，结束点，步长):生成有序数列

#[:,np.newaxis]用来增维，因为要放到回归树中必须是二维特征矩阵

X_test = np.arange(0.0, 5.0, 0.01)[:, np.newaxis]

-->从array([0. , 0.01..4.99])升维到

array([[0. ],

[0.01],

.......

[4.99]])

#predict导入测试集后得到每个样本的分类/回归结果，即导入x得到y

y_1 = regr_1.predict(X_test)

y_2 = regr_2.predict(X_test)

注：[,np.newaxis]

l = np.array([1,2,3,4])

-->array([1, 2, 3, 4])

l[:,np.newaxis]

-->array([[1],

[2],

[3],

[4]])

5.绘制图像

#绘制图像

#画布

plt.figure()

#scatter绘制散点图，s点的大小，edgecolor边框颜色，c点的颜色，label标签

plt.scatter(X, y, s=20, edgecolor="black",c="darkorange", label="data")

#plot绘制折线图，绘制回归结果

plt.plot(X_test, y_1, color="cornflowerblue",label="max_depth=2", linewidth=2)

plt.plot(X_test, y_2, color="yellowgreen", label="max_depth=5", linewidth=2)

plt.xlabel("data")

plt.ylabel("target")

plt.title("Decision Tree Regression")

#显示图例

plt.legend()

plt.show()

结果：（观察不同深度的树如何拟合曲线）

蓝色这一条是max_depth=2，对数据的模拟还算比较接近，走势相符，防止过拟合，更接近余弦状况

绿色这一条是max_depth=5，对训练集有更大的拟合，过度受到了噪声的影响，过拟合，效果不如max_depth=2

可见，回归树学习了近似正弦曲线的局部线性回归。我们可以看到，如果树的最大深度（由max_depth参数控制）设置得太高，则决策树学习得太精细，它从训练数据中学了很多细节，包括噪声得呈现，从而使模型偏离真实的正弦曲线，形成过拟合。

4实例：泰坦尼克号幸存者的预测

泰坦尼克号的沉没是世界上最严重的海难事故之一，今天我们通过分类树模型来预测一下哪些人可能成为幸存者。数据集来着Titanic - Machine Learning from Disaster | Kaggle。数据集包含两个csv格式文件，data（特征+标签）为我们接下来要使用的数据，test为kaggle提供的测试集。

接下来我们就来执行我们的代码。

1.导入所需要的库

#导入所需要的库

import pandas as pd

from sklearn.tree import DecisionTreeClassifier

from sklearn.model_selection import train_test_split

from sklearn.model_selection import GridSearchCV

from sklearn.model_selection import cross_val_score

import matplotlib.pyplot as plt

2.导入数据集，探索数据

#导入数据，①前面写r②下划线朝左"E:/Jupyter Workspace/Taitanic data/data.csv"

data = pd.read_csv(r"E:\Jupyter Workspace\Taitanic data\data.csv")

#探索数据

data.info() #891个索引，object需要转换为数字，Age，Cabin都有缺失值

#显示前n行（默认5）

data.head()

3.对数据集进行预处理

#处理缺失值，对缺失值较多的列进行填补，fillna填补缺失值，用平均值填补年龄

#有一些特征只确实一两个值，可以采取直接删除记录的方法

data["Age"] = data["Age"].fillna(data["Age"].mean())

#dropna：删掉所有有缺失值的行

data = data.dropna()

#将二分类变量转换为数值型变量

#astype能够将一个pandas对象转换为某种类型，和apply(int(x))不同

#astype可以将文本类转换为数字，用这个方式可以很便捷地将二分类特征转换为0~1

#data["Sex"]== "male"返回布尔值True，False转换为1,0

#loc使用标签进行索引.loc['行','列']

data.loc[:,"Sex"] = (data["Sex"]== "male").astype("int")

#将三分类变量转换为数值型变量,unique()取出所有的值（重复值删去）

labels = data["Embarked"].unique().tolist()

#apply执行括号中的操作，（将每一行Embarked(舱门)数据中的'S''Q''C'转换为索引（0,1,2）表示）

data.loc[:,"Embarked"] = data["Embarked"].apply(lambda x: labels.index(x))

#查看处理后的数据

data.head()

注：loc是根据index来索引，iloc并不是根据index来索引，而是根据行号来索引，行号从0开始，逐次加1。

4.提取标签和特征矩阵，分测试集和训练集

#提取标签和特征矩阵，分测试集和训练集

#取特征矩阵（除Survived以外的所有列）

x = data.iloc[:,data.columns != "Survived"]

#取标签

y= data.iloc[:,data.columns == "Survived"]

#划分测试集和训练集(3,7分)，（此时索引为乱序）

Xtrain,Xtest,Ytrain,Ytest = train_test_split(x,y,test_size=0.3)

#修正测试集和训练集的索引（即索引按顺序排列）,修正索引可以避免之后出现混乱

#训练集622个，测试集267个

for i in [Xtrain,Xtest,Ytrain,Ytest]:

index = range(i.shape[0]) #即把索引转换为0-621的整数

#查看修正后的索引

Xtrain

-->

	PassengerId	Pclass	Sex	Age	SibSp	Parch	Fare	Embarked
0	471	3	0	29.699118	0	0	7.2500	0
1	693	3	0	29.699118	0	0	56.4958	0
..
621	98	1	0	23.000000	0	1	63.3583	1

5.导入模型，粗略跑一下查看结果

注：固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

总结：对于那些本质上是随机的过程，我们有必要控制随机的状态，这样才能重复的展现相同的结果。
如果，对随机状态不加控制，那么实验的结果就无法固定，而是随机的显现。

#导入模型

#实例化（此处加random_state可以使每次构建的模型相同，不然每次构建模型都是随机的）

clf = DecisionTreeClassifier(random_state=25)

#使用训练集训练模型

clf = clf.fit(Xtrain,Ytrain)

score = clf.score(Xtest,Ytest)

score

-->0.6779026217228464

#使用交叉验证

clf = DecisionTreeClassifier(random_state=25)

score = cross_val_score(clf,x,y,cv=10).mean()

score

-->0.5995020429009192 #结果反而变低了

6.在不同max_depth下观察模型的拟合状况，绘制学习曲线

#绘制学习曲线

tr=[]

te=[]

for i in range(10):

clf = DecisionTreeClassifier(random_state=25

,max_depth=i+1

)

clf = clf.fit(Xtrain,Ytrain)

#训练集拟合的分数

score_tr = clf.score(Xtrain,Ytrain)

#测试集拟合的分数

score_te = cross_val_score(clf,x,y,cv=10).mean()

tr.append(score_tr)

te.append(score_te)

print(max(te))

-->0.7019790602655771

#绘图（训练集）

plt.plot(range(1,11),tr,color="red",label="train")

#绘图（测试集）

plt.plot(range(1,11),te,color="blue",label="test")

#X刻度

plt.xticks(range(1,11))

plt.legend()

plt.show()

随着max_depth加深，过拟合越来越严重，训练集准确度越老越高,测试集越来越低，测试集最高分数只达到0.7，即最大深度=3时

#这里为什么使用“entropy”？因为我们注意到，在最大深度=3的时候，模型拟合不足，在训练集和测试集上的表现接近，但却都不是非常理想，只能够达到83%左右，所以我们要使用entropy。

加上criterion="entropy"，准确度略微的提升0.701-0.703

所以还需要通过剪枝、调参等进一步提升准确率

加上criterion="entropy"，准确度略微的提升0.701-0.703

所以还需要通过剪枝、调参等进一步提升准确率

7.用网格搜索调整参数（同时调整多个参数，枚举技术）

计算量大，时间耗费长

import numpy as np

#在0到0.5中取有顺序的50个随机数

#基尼系数边界（取值范围0-0.5）,信息熵是(0-1)

gini_threholds = np.linspace(0,0,5,50)

#parameters是一串参数和这些参数对应的,是字典，我们希望网格搜索来搜素的参数的取值范围

parameters={"criterion":("gini","entropy")

,"splitter":("best","random")

,"max_depth":[*range(1,10)]

,"min_samples_leaf":[*range(1,50,5)]

,"min_impurity_decrease":[*np.linspace(0,0.5,50)]

}

#信息增益的最小值，当信息增益小于我们规定的min_impurity_decrease，决策树将不在进行分枝

clf = DecisionTreeClassifier(random_state=25)

#实例化网格搜索(参数（模型，参数取值范围，交叉验证次数）)

GS = GridSearchCV(clf,parameters,cv=10)

GS = GS.fit(Xtrain,Ytrain)

GS.best_params_ #从我们输入的参数和参数取值的列表中，返回最佳组合

GS.best_score_ #网格搜索后的模型的评判标准

5决策树的优缺点

决策树优点

易于理解和解释，因为树木可以画出来被看见
需要很少的数据准备。其他很多算法通常都需要数据规范化，需要创建虚拟变量并删除空值等。但请注意，sklearn中的决策树模块不支持对缺失值的处理。
使用树的成本（比如说，在预测数据的时候）是用于训练树的数据点的数量的对数，相比于其他算法，这是一个很低的成本。
能够同时处理数字和分类数据，既可以做回归又可以做分类。其他技术通常专门用于分析仅具有一种变量类型的数据集。
能够处理多输出问题，即含有多个标签的问题，注意与一个标签中含有多种标签分类的问题区别开
是一个白盒模型，结果很容易能够被解释。如果在模型中可以观察到给定的情况，则可以通过布尔逻辑轻松解释条件。相反，在黑盒模型中（例如，在人工神经网络中），结果可能更难以解释。
可以使用统计测试验证模型，这让我们可以考虑模型的可靠性。
即使其假设在某种程度上违反了生成数据的真实模型，也能够表现良好。

决策树的缺点

决策树学习者可能创建过于复杂的树，这些树不能很好地推广数据。这称为过度拟合。修剪，设置叶节点所需的最小样本数或设置树的最大深度等机制是避免此问题所必需的，而这些参数的整合和调整对初学者来说会比较晦涩
决策树可能不稳定，数据中微小的变化可能导致生成完全不同的树，这个问题需要通过集成算法来解决。
决策树的学习是基于贪婪算法，它靠优化局部最优（每个节点的最优）来试图达到整体的最优，但这种做法不能保证返回全局最优决策树。这个问题也可以由集成算法来解决，在随机森林中，特征和样本会在分枝过程中被随机采样。
有些概念很难学习，因为决策树不容易表达它们，例如XOR，奇偶校验或多路复用器问题。
如果标签中的某些类占主导地位，决策树学习者会创建偏向主导类的树。因此，建议在拟合决策树之前平衡数据

附录

分类树参数列表

2.分类树属性列

3.分类树接口列表

原文链接：https://blog.csdn.net/birdooo/article/details/122988196