集成学习(Ensemble learning)的Boosting模型、最初的Boosting、Adaboost

本文深入探讨了集成学习中的Boosting模型,介绍了从最初的Boosting模型如何通过组合弱分类器形成强分类器,到Adaboost算法如何通过调整分类错误样本的权重来优化分类效果,以及Xgboost的发展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

集成学习(Ensemble learning)的Boosting模型

Boosting模型

最初的Boosting

  • 重复地从一个样本集合D中采样n个样本
  • 针对每次采样的子样本集,进行统计学习,获得假设HiH_iHi
  • 将若干个假设进行组合,形成最终的假设HfinalH_{final}Hfinal
  • 将最终的假设用于具体的分类任务

但是这样的模型只是将原有的弱分类器进行了简单的组合,就是将弱分类器线性组合成一个强分类器,但是必须预先知道每一个弱分类器的精度下限,必须每个弱分类器的精度大于0.5,如果小于0.5,那么对于一个二分类任务而言还不如随机分类的精度高,那么这样的弱分类器显然是没有意义的,假若将其组合到最终的强分类器中也只能拉低强分类器的分类能力。

后来发展的Boosting模型的典型代表有Adaboost和Xgboost

Adaboost

AdaBoost 是Boosting 算法家族中代表算法,AdaBoost 主要是在整个训练集上维护一个分布权值向量 Dt(x)D_t( x)Dt(x) ,用赋予权重的训练集通过弱分类算法产生分类假设 Ht(x)H_t ( x)Ht(x) ,即基分类器,然后计算他的错误率,用得到的错误率去更新分布权值向量 $D_t( x) $,对错误分类的样本分配更大的权值,正确分类的样本赋予更小的权值。每次更新后用相同的弱分类算法产生新的分类假设,这些分类假设的序列构成多分类器。对这些多分类器用加权的方法进行联合,最后得到决策结果。这种方法不要求产生的单个分类器有高的识别率,即不要求寻找识别率很高的基分类算法,只要产生的基分类器的识别率大于 0.5 ,就可作为该多分类器序列中的一员。

j简而言之Adaboost会根据前一次的分类效果调整权重,如果某一个数据分类错了,分类错误的样本认为是分类困难样本,那么在下一次就更重视它给它更大的权重,反之权重降低,得到一个新的样本分布,在新的样本分不下,训练一个新的分类器,并且重复权重更新的过程,这样得到n个分类器。最后的结果就是每个分类器根据自身的准确性来确定各自的权值,再将每个分类器的训练结果整合。

在这里插入图片描述

从弱学习器开始,通过加权来进行训练

Fm(x)=Fm−1(x)+argminh∑i=1i=nL(yi,Fm−1(xi)+h(xi))\begin{aligned}F_m(x) = F_{m-1}(x)+argmin_h\sum_{i=1}^{i=n}L(y_i,F_{m-1(x_i)}+h(x_i))\end{aligned}Fm(x)=Fm1(x)+argminhi=1i=nL(yi,Fm1(xi)+h(xi))

当前树的预测值等于前一棵树的预测加上后一棵树的"加权",也就是加上使得前一棵树预测值与目标值误差最小时的残差。实际上就是说前一棵树的预测结果加上当前树的预测结果,等于最终的预测结果。

举个栗子说明一下,如下图所示

将数据传给A树,最终得到一个预测结果。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值