结合李航老师《统计学习方法》,笔记参见【统计机器学习-李航】第5章 决策树
4.1 导入

从根节点 到 每个叶节点的路径对应了一个 判定测试序列。决策树学习的目的是 产生一颗泛化能力强的决策树,基本流程遵循 简单且直观的“分而治之 (divide-and-conquer)” 策略。
输入:训练集
属性集
过程:
定义 函数TreeGenerate (D, A):
生成节点node;
if D中样本全部属于同一个类别C then
将node标记为C类叶节点;return
end if
if A =
or D中样本在A上取值相同 then
将node标记为 叶节点,其类别标记为D中样本数 最多的类;return
end if
从A中 选择最优划分属性
; # 这一步是十分关键,那么如何选择最优划分属性?参见4.2
for
的每一个取值
do
为node生成一个分支;令
表示D中 在
上取值为
的样本子集;
if
为空 then
将分支结点标记为叶节点,其类别标记为 D 中样本最多的类;return
else
以 TreeGenerator (