背景
CART(Classification And Regression Tree)可以做分类树也可以做回归树。注意特征可以是不同的类别,标签也可以是不同的类别。
回归树
求最优的数据切分点,首先要对单列特征排一个序,然后依据排序好的特征和标签选择最优的切分点。如果为多特征时,会对特征做一个选择,依据的标准是最小化的下列式子的值,与特征没有关系,仅仅与lable是有关系的。CART是分类树时用GINI(基尼指数)值作为节点分裂依据。j jj表示的应该是第j jj个特征
min j , s [ min c 1 ∑ x i ∈ R 1 ( j , s ) ( y i − c 1 ) 2 + min c 2 ∑ x i ∈ R 2 ( j , s ) ( y i − c 2 ) 2 ] \min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{1}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2} } \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right]j,smin⎣⎡c1minxi∈R1(j,s)∑(yi−c1)2+c2minxi∈R2(j,s)∑(yi−c2)2⎦⎤
j jj是与x xx有关系的,表示为x ( j ) x^{(j)}x(j), s ss是切分点。
最后的树为:
f ( x ) = ∑ m = 1 M c ^ m I ( x ∈ R ) f(x)=\sum_{m=1}^{M} \hat{c}_{m} I(x \in R)f(x)=m=1∑Mc^mI(x∈R)
M MM表示划分的区域数,I II表示如果在某一个区域则为1,不在则为0。 上述为回归树,分类树需要考虑基尼指数等。
- 上述考虑了特征是连续的,如果特征是离散的的那么需要考虑什么问题呢?
答:可以按照离散的特征进行分区域计算。
CART分类树
分类树需要考虑基尼指数,通过基尼指数,我们可以选择最优特征和最优分割点。




- 上述考虑了特征是离散的,如果特征是连续的那么需要考虑什么问题呢?
答:使用CART分类树,哪个类别就当做是哪一类。
参考资料
https://www.cnblogs.com/limingqi/p/12421960.html
https://www.cnblogs.com/keye/p/10564914.html
https://www.cnblogs.com/keye/p/10564914.html
https://blog.csdn.net/qq_40006058/article/details/80530358