集成学习 | 集成学习思想：Boosting

原创

已于 2024-03-21 20:12:31 修改 · 1.9k 阅读

38 ·

CC 4.0 BY-SA版权

文章标签：

#集成学习 #boosting #机器学习 #adaboost #GBDT

于 2024-03-20 12:47:55 首次发布

一. Boosting思想

在对Bagging思想中随机森林算法有了一定了解之后，我们会发现

	在随机森林构建过程中，各棵树之间是相对独立的
		也就是说：在构建第m棵子树的时候，不会考虑前面的m-1棵树

那么，我们能否对这个现象进行优化呢？

在构建第m棵子树的时候，考虑到前m-1棵子树的结果，会不会对最终
结果产生有益的影响？
各个决策树组成随机森林后，最终结果能否存在一种既定的决策顺序，即哪颗子树先进行决策、哪颗子树后进行决策

针对上面提出的优化方向，集成学习又提出了提升学习（Boosting）思想

	思想：
		在弱学习器A的基础上训练得到弱学习器B
		弱学习器B+弱学习器A的预测结果一定优于弱学习器A
		即：每一步产生的弱预测模型加权累加到总模型中
	boosting意义：
		弱预测模型可以通过提升技术得到一个强预测模型
	boosting思想：
		可以用于回归和分类的问题

在这里插入图片描述

1. Adaboost 算法

Adaptive Boosting是一种迭代算法，即将基学习器的线性组合作为强学习器
既可以用于分类问题，也可以用于回归问题
AdaBoost算法主要用于解决分类问题，基学习器是CART分类树
AdaBoost算法也可以用于解决回归问题，基学习器是CART回归树，这种变体被称为AdaBoost.R2

	具体操作：
		1. 训练数据集，产生一个新的弱学习器
		2. 使用该学习器对所有训练样本进行预测
		3. 评估每个样本的重要性，即为每个样本赋予一个权重
				 如果某个样本点被预测的越正确，则将样本权重降低
				 如果某个样本点被预测的越错误，则将样本权重提高，即，越难区分的样本在下一次迭代中会变得越重要
		       注意：这里样本的权重是归一的
		4. 通过迭代，得到n个基学习器
		   		对于误差率较小的基学习器以大的权重值
		   		对于误差率较大的基学习器以小的权重值 
		   			注意：这里基学习器的权重不归一
	    5. 线性组合所有基学习器

	停止条件：
		错误率足够小或者达到一定的迭代次数

以二分类任务为例子，Adaboost 将基分类器的线性组合作为强分类器，即
$\sum_{m=1}^{M}\alpha_{m}G_{m}(x)$

公式解释：
$G_{m}(x)$ 为基分类器，且 $G_{m}(x)=\pm1$
$\alpha_{m}$ 为基分类器对应的权重，且 $\alpha_{m}>0$ ，不归一

最终分类器是在线性组合的基础上进行Sign函数转换，因此最终的强学习器为：
$sign[\sum_{m=1}^{M}\alpha_{m}G_{m}(x)]$
在这里插入图片描述

公式解释：

当所有样本的加权和为正数时，输出 $G (x) = 1$
当所有样本的加权和为负数时，输出 $G (x) = - 1$
当所有样本的加权和为0时，返回任意值

根据上面的公式，我们用错误率构建损失函数，就会得到每个学习器的损失函数，即分错了的样本权重和：
$\sum_{i=1}^{n}w_{i}I[G(x_{i})\ne y_{i}] ，I(b)=\left\{\begin{matrix}1，b=True \\0，b=False\end{matrix}\right.，\sum_{i=1}^{n} w_{i}=1{\tiny }$

公式解释：

$x_{i},y_{i}$ 分别为训练集的特征值和标签值

$\sum_{i=1}^{n}$ 表示训练集中有n个样本

$w_{i}$ 为每个样本的权重，归一

$G(x_{i})$ 为基学习器的预测值，即输入x值，输出+1 / -1

$I[G(x_{i})\ne y_{i}]$ 表示当预测错误时， $I 函数$ 返回1

公式说明：

训练样本固定，但每个样本的权重不同，因此 $G ()$ 不同

这里，由于损失函数是分段函数，不方便求导，所以我们可以通过边界值来求导，即损失函数（上界）公式为：
$\sum_{i=1}^{n}w_{i}I[G(x_{i})\ne y_{i}] \le \sum_{i=1}^{n}w_{i}e^{(-y_{i}f(x))}$

公式解释：

当 $G(x_{i})\ne y_{i}$ ， $I 函数 = 1$ ，此时 $f(x)<0，y_{i} =1$ ，即 $e^{x}>1$
当 $G(x_{i})= y_{i}$ ， $I 函数 = 0$ ，此时 $f(x)>0，y_{i} =1$ ，即 $e^{x}>0$

现在假设我们已经得到了第 $k - 1$ 轮的强学习器：
$f_{k-1}(x)=\sum_{j=1}^{k-1}\alpha _{j}G_{j} (x)$

那么，对于第 $k$ 轮的强化学习器，可以写为：
$f_{k}(x)=f_{k-1}(x)+\alpha _{k}G_{k}(x)=\sum_{j=1}^{k}\alpha _{j}G_{j} (x)$

因此对于第m次迭代，损失函数为：
$loss(\alpha _{m},G_{m}(x)) = \sum_{i=1}^{n}w_{m-1,i}e^{-(y_{i}f_{m}(x))}$

公式解释：

$w_{m-1,i}$ 为第m-1轮中，每个样本的权重值

$f_{m}(x)$ 为第m轮传入的样本

注意：这里第m-1轮次的参数是已知的

公式推导：

$=\sum_{i=1}^{n}w_{m-1,i}e^{-(y_{i}(f_{m-1}(x)+\alpha _{m}G_{m}(x)))}$