集成学习(Ensemble learning)的Boosting模型、最初的Boosting、Adaboost

本文链接：https://blog.csdn.net/weixin_44451032/article/details/100083532

本文深入探讨了集成学习中的Boosting模型，介绍了从最初的Boosting模型如何通过组合弱分类器形成强分类器，到Adaboost算法如何通过调整分类错误样本的权重来优化分类效果，以及Xgboost的发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

集成学习(Ensemble learning)的Boosting模型

Boosting模型

最初的Boosting

重复地从一个样本集合D中采样n个样本
针对每次采样的子样本集，进行统计学习，获得假设 $H_i$
将若干个假设进行组合，形成最终的假设 $H_{final}$
将最终的假设用于具体的分类任务

但是这样的模型只是将原有的弱分类器进行了简单的组合，就是将弱分类器线性组合成一个强分类器，但是必须预先知道每一个弱分类器的精度下限，必须每个弱分类器的精度大于0.5，如果小于0.5，那么对于一个二分类任务而言还不如随机分类的精度高，那么这样的弱分类器显然是没有意义的，假若将其组合到最终的强分类器中也只能拉低强分类器的分类能力。

后来发展的Boosting模型的典型代表有Adaboost和Xgboost

Adaboost

AdaBoost 是Boosting 算法家族中代表算法,AdaBoost 主要是在整个训练集上维护一个分布权值向量 $D_t( x)$ ,用赋予权重的训练集通过弱分类算法产生分类假设 $H_t ( x)$ ,即基分类器,然后计算他的错误率,用得到的错误率去更新分布权值向量 $D_t( x) $,对错误分类的样本分配更大的权值,正确分类的样本赋予更小的权值。每次更新后用相同的弱分类算法产生新的分类假设,这些分类假设的序列构成多分类器。对这些多分类器用加权的方法进行联合,最后得到决策结果。这种方法不要求产生的单个分类器有高的识别率,即不要求寻找识别率很高的基分类算法,只要产生的基分类器的识别率大于 0.5 ,就可作为该多分类器序列中的一员。

j简而言之Adaboost会根据前一次的分类效果调整权重，如果某一个数据分类错了，分类错误的样本认为是分类困难样本，那么在下一次就更重视它给它更大的权重，反之权重降低，得到一个新的样本分布，在新的样本分不下，训练一个新的分类器，并且重复权重更新的过程，这样得到n个分类器。最后的结果就是每个分类器根据自身的准确性来确定各自的权值，再将每个分类器的训练结果整合。

在这里插入图片描述