【机器学习-西瓜书】第4章-决策树

本文深入探讨决策树的学习过程,包括导入、划分选择标准如信息增益、增益率和基尼指数,以及剪枝处理,对连续值和缺失值的处理,多变量决策树等核心概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

结合李航老师《统计学习方法》,笔记参见【统计机器学习-李航】第5章 决策树

4.1 导入

一棵决策树包含一个根节点、若干个内部节点(对应于属性测试)和叶节点(对应于决策结果);

从根节点 到 每个叶节点的路径对应了一个 判定测试序列。决策树学习的目的是 产生一颗泛化能力强的决策树,基本流程遵循 简单且直观的“分而治之 (divide-and-conquer)” 策略。

输入:训练集 D=\left \{ \left ( x_{1}, y_{1}\right ),\left ( x_{2}, y_{2}\right ),...,\left ( x_{m}, y_{m}\right ) \right \};\\

        属性集 A=\left \{ a_{1}, a_{2},..., a_{d}\right \}

过程:

定义 函数TreeGenerate (D, A):

        生成节点node;

        if D中样本全部属于同一个类别C then

                将node标记为C类叶节点;return

        end if

        if A = \varnothing or D中样本在A上取值相同 then

                将node标记为 叶节点,其类别标记为D中样本数 最多的类;return

        end if

        从A中 选择最优划分属性a^{\ast } ;     # 这一步是十分关键,那么如何选择最优划分属性?参见4.2

        for a^{\ast } 的每一个取值 a_{\ast }^{v} do

                为node生成一个分支;令 D_{v} 表示D中 在a^{\ast }上取值为 a_{\ast }^{v} 的样本子集;

                if D_{v} 为空 then

                        将分支结点标记为叶节点,其类别标记为 D 中样本最多的类;return

                else

                        以 TreeGenerator (

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值