【机器学习-西瓜书】第4章-决策树

原创

已于 2022-03-25 14:37:38 修改 · 1.9k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2022-03-25 00:25:34 首次发布

本文深入探讨决策树的学习过程，包括导入、划分选择标准如信息增益、增益率和基尼指数，以及剪枝处理，对连续值和缺失值的处理，多变量决策树等核心概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

结合李航老师《统计学习方法》，笔记参见【统计机器学习-李航】第5章决策树

4.1 导入

一棵决策树包含一个根节点、若干个内部节点（对应于属性测试）和叶节点（对应于决策结果）；

从根节点到每个叶节点的路径对应了一个判定测试序列。决策树学习的目的是产生一颗泛化能力强的决策树，基本流程遵循简单且直观的“分而治之 (divide-and-conquer)” 策略。

输入：训练集 $D=\left \{ \left ( x_{1}, y_{1}\right ),\left ( x_{2}, y_{2}\right ),...,\left ( x_{m}, y_{m}\right ) \right \};\\$

属性集 $A=\left \{ a_{1}, a_{2},..., a_{d}\right \}$

过程：

定义函数TreeGenerate (D, A)：

生成节点node；

if D中样本全部属于同一个类别C then

将node标记为C类叶节点；return

end if

if A = $\varnothing$ or D中样本在A上取值相同 then

将node标记为叶节点，其类别标记为D中样本数最多的类；return

end if

从A中选择最优划分属性 $a^{\ast }$ ； # 这一步是十分关键，那么如何选择最优划分属性？参见4.2

for $a^{\ast }$ 的每一个取值 $a_{\ast }^{v}$ do

为node生成一个分支；令 $D_{v}$ 表示D中在 $a^{\ast }$ 上取值为 $a_{\ast }^{v}$ 的样本子集；

if $D_{v}$ 为空 then

将分支结点标记为叶节点，其类别标记为 D 中样本最多的类；return

else

以 TreeGenerator (