决策树 | 分裂算法：ID3，C4.5，CART

最新推荐文章于 2025-04-09 17:16:34 发布

ToBeCertain

最新推荐文章于 2025-04-09 17:16:34 发布

阅读量2.1k

点赞数 16

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：算法决策树机器学习人工智能

本文链接：https://blog.csdn.net/weixin_49613115/article/details/136674083

机器学习专栏收录该内容

27 篇文章

订阅专栏

本文介绍了决策树算法中的ID3、C4.5和CART三种方法，重点关注它们的信息增益、信息增益率和Gini系数等划分标准。C4.5改进了ID3的不足，CART则支持二叉树结构，适用于回归和分类任务。文章还讨论了算法在实际应用中的优缺点和适用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在决策树算法逻辑篇中，我们讲解了决策树的构建方式，下面我们来聊一聊决策树中常用的三个算法

一. ID3算法

1. 信息增益

ID3算法是构造决策树的一个经典算法

	使用信息熵以及信息增益来进行构建
	每次迭代选择信息增益最大的特征属性作为分割属性

2. ID3算法特点

ID3算法只支持离散的特征属性，不支持连续的特征属性
若想处理连续的特征属性，要先对连续值进行离散化处理
ID3算法构建的是多叉树，不保证二叉树

详细过程参考决策树算法逻辑篇中的银行示例

二. C4.5算法

对于ID3算法以信息增益为划分的标准，可以发现存在这样一种极端：

当收入按照60，80，87.5，95划分为五叉树时，可以直接得到熵为0的五个叶子节点，且此时系统的信息增益最大

此方案进行划分时，只需一次分裂就可以建好决策树

但是，显然上述这种情况下的划分并不合理；为了解决信息增益划分时的不合理情况，我们引入信息增益率的概念

1. 信息增益率

C4.5算法

	使用信息增益率来进行构建
	每次迭代选择信息增益率最大的特征属性作为分割属性

$\frac{Gain(D,a)}{IV(a)}$

$G ain (D, a)$ ：信息增益
$I V (a)$ ：属性a的固有值

$-\sum_{v=1}^{v}\frac{|D^{v}|}{|D|}\log_{2}{\frac{|D^{v}|}{|D|}}$
例子：
房子样本4个是，6个否
$-\frac{4}{10}\log_{2}{\frac{4}{10}} -\frac{6}{10}\log_{2}{\frac{6}{10}}=3.747$
婚姻样本4个单身，3个已婚，3个离婚
$-\frac{4}{10}\log_{2}{\frac{4}{10}} -\frac{3}{10}\log_{2}{\frac{3}{10}}-\frac{3}{10}\log_{2}{\frac{3}{10}}=4.003$

2. C4.5算法特点

	C4.5算法以信息增益率为划分标准
		有效避免了叉越多，信息增益越大的影响
	
	结合上面的公式分析，我们可以得出：
		树分支越多，IV(a)固有属性越大，信息增益率也就相对越小

在树的构造过程中会进行剪枝操作进行优化
能够自动完成对连续属性的离散化处理
C4.5构建的是多分支的决策树

三. CART算法

1. Gini系数公式

CART算法

	采用Gini系数来衡量划分的有效性

$\sum_{i=1}^{n}[p_{i}*(1-p_{i})] =1-\sum_{i=1}^{n}p_{i}^{2}$

2. CART算法特点

选择gini增益最大的属性作为当前数据集的分割属性
可用于分类和回归两类问题
CART构建是二叉树

3. CART回归树的分裂评价指标

MSE均方误差划分指标：

	样本越集中，值越小，划分越好

$MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\bar{y}_{i})^{2}$

MAE绝对误差划分指标：
$MAE=\frac{1}{n}\sum_{i=1}^{n}|y_{i}-\hat{y}_{i}|$

小节

ID3，C4.5，CART三种算法适用在小规模数据集上，即内存要能装得下

ID3，C4.5，CART采用单变量决策树

  	单变量的决策树：每次分裂时只选择了一个特征进行分裂
  		实际现实任务时每次只选择一个特征进行分裂效果并不好
  		因此我们希望一次分裂时综合考虑好几个特征，组合成一个综合条件，但此时模型会相对复杂，计算量大

一般采用CART算法构造树，ID3和C4.5算法在sklearn库中没有真正实现
回归树中，叶子节点的预测值一般为叶子节点中所有值的均值
分类树中，叶子节点的预测值一般为叶子节点中概率最大的类别

在这里插入图片描述
注意：三种算法的主要区别在于划分指标不同
本质区别在于是否为二叉树

	也就说，CART算法的划分指标当然也可以选用信息增益率来划分
	只要明确构建的树为二叉树，那么关于ID3存在的问题和C4.5想要解决的问题也就不存在了

感谢阅读🌼
如果喜欢这篇文章，记得点赞👍和转发🔄哦！
有任何想法或问题，欢迎留言交流💬，我们下次见！
本文相关代码存放位置
【[决策树基于鸢尾花数据集的分类]】

祝愉快🌟！