【回归算法解析系列09】梯度提升回归树（GBRT, XGBoost, LightGBM）

最新推荐文章于 2025-07-31 16:28:07 发布

莫比乌斯@卷

最新推荐文章于 2025-07-31 16:28:07 发布

阅读量2.4k

点赞数 29

CC 4.0 BY-SA版权

分类专栏： # 机器学习文章标签：回归数据挖掘人工智能

本文链接：https://blog.csdn.net/maoyu_dual/article/details/146297527

【回归算法解析系列】梯度提升回归树（GBRT, XGBoost, LightGBM）

1. 梯度提升回归树：迭代优化的艺术

梯度提升回归树（Gradient Boosting Regression Tree, GBRT）作为集成学习领域中基于Boosting思想的强大算法，凭借其独特的优化方式和出色的性能，在众多实际应用场景中大放异彩。它的核心优势显著，为解决复杂的回归问题提供了高效的解决方案。

1.1 核心优势

逐轮优化：GBRT的迭代优化过程犹如一场精心规划的马拉松比赛。每一轮迭代，它都以前序模型的预测残差为指引，构建新的决策树来修正这些残差，逐步逼近最优解。就像运动员在比赛中不断调整自己的节奏和策略，通过每一小段路程的优化，最终完成整个赛程。例如，在预测用户购买金额时，第一轮模型可能会根据用户的基本信息进行初步预测，得到一个预测值。而这个预测值与真实购买金额之间会存在一定的误差，即残差。接下来的轮次中，模型会专注于这些残差，构建新的决策树，尝试对残差进行更准确的预测，从而不断提高整体的预测精度。
灵活损失函数：GBRT支持多种损失函数，如均方误差（MSE）、平均绝对误差（MAE）、Huber损失等。不同的损失函数适用于不同的数据特点和业务需求。MSE对误差的平方进行计算，会放大误差较大的数据点的影响，适用于对预测精度要求较高且希望模型更关注大误差数据的场景；MAE则直接计算误差的绝对值，对异常值更为鲁棒，在数据存在较多噪声时能提供更稳定的结果；Huber损失则结合了MSE和MAE的优点，在误差较小时采用MSE，在误差较大时采用MAE，能够平衡模型的准确性和对异常值的抗性。
正则化策略：为了防止模型过拟合，GBRT采用了收缩率（learning rate）和子采样等正则化策略。收缩率类似于学习过程中的“步长”，它控制着每一轮迭代时新模型对残差的修正程度。步长过大，模型可能会跳过最优解；步长过小，模型的收敛速度会变慢，但能更精确地逼近最优解。子采样则是在每一轮迭代时，从训练数据中随机抽取一部分样本用于构建决策树，这使得模型在训练时不会过度依赖某些特定的数据，增强了模型的泛化能力。

1.2 XGBoost与LightGBM的工程优化

XGBoost和LightGBM作为GBRT的工程优化版本，在计算效率和内存管理方面实现了重大突破。

XGBoost：XGBoost引入了二阶导数近似，这使得模型在优化过程中能够更准确地捕捉损失函数的变化趋势，加速模型的收敛速度。同时，它还采用了稀疏感知算法，能够高效地处理稀疏数据，减少内存占用和计算量。例如，在处理用户行为数据时，可能存在大量的稀疏特征，如用户是否点击过某个特定的商品链接，XGBoost的稀疏感知算法可以有效地利用这些稀疏特征，而不会因为数据稀疏而增加过多的计算负担。
LightGBM：LightGBM基于直方图的决策树算法，将连续的特征值离散化为直方图，大大减少了计算量。它的Leaf-wise生长策略则是选择增益最大的叶子节点进行分裂，而不是像传统的Level-wise策略那样按层分裂，这使得模型能够更快地拟合数据，提高了模型的训练效率。同时，LightGBM在内存管理上也表现出色，通过直方图压缩等技术，降低了内存占用。

在这里插入图片描述

1.3 适用场景

结构化数据预测：在用户购买金额预测、点击率预估等结构化数据预测场景中，GBRT及其优化版本表现出色。这些场景中的数据通常具有明确的结构和特征，GBRT能够有效地捕捉特征之间的复杂关系，提供准确的预测结果。例如，在电商平台中，通过分析用户的历史购买行为、浏览记录、商品属性以及当前的上下文信息等结构化数据，GBRT可以精准地预测用户的购买金额，帮助商家制定个性化的营销策略。
大规模数据场景：LightGBM尤其适用于大规模数据场景，它支持处理百万级甚至更多的特征，在面对海量数据时依然能够保持高效的计算能力和良好的性能。这使得它在互联网广告、金融风控等需要处理大规模数据的领域得到了广泛应用。

2. 数学原理：从GBRT到XGBoost优化

2.1 GBRT的加法模型

GBRT采用加法模型，通过迭代的方式逐步构建模型。在第 ( t ) 轮模型的预测结果为：
[
\hat{y}_i^{(t)} = \hat{y}i^{(t - 1)} + \eta f_t(\mathbf{x}i)
]
这里，( \eta ) 是学习率，它控制着每一轮迭代时新模型对预测结果的更新幅度，类似于调整步伐的大小。( f_t ) 是当前轮次构建的树模型，它的任务是通过最小化损失函数 ( L ) 来学习如何修正前序模型的残差。具体来说，( f_t ) 由以下公式确定：
[
f_t = \arg\min{f} \sum{i = 1}^N L(y_i, \hat{y}_i^{(t - 1)} + f(\mathbf{x}_i))
]
这个公式的含义是，寻找一个函数 ( f )，使得在所有样本上，当前模型预测值（前序模型预测值加上新模型预测值）与真实值之间的损失函数之和最小。

在这里插入图片描述

2.2 XGBoost的目标函数

为了更好地控制模型的复杂度，防止过拟合，XGBoost在目标函数中引入了正则化项：
[
\text{Obj} = \sum_{i = 1}^N L(y_i, \hat{y}i) + \sum{k = 1}^K \left( \gamma T_k + \frac{1}{2} \lambda |\mathbf{w}_k|^2 \right)
]
其中，( T_k ) 表示第 ( k ) 棵树的叶子数，叶子数越多，模型越复杂，( \gamma ) 是控制叶子节点数的惩罚系数；( \mathbf{w}_k ) 是叶子权重，( \lambda ) 是权重的惩罚系数。通过调整这两个惩罚系数，可以平衡模型的拟合能力和复杂度。

2.3 二阶泰勒展开近似

XGBoost利用损失函数的二阶导数来加速优化过程。通过二阶泰勒展开，将目标函数近似为：
[
\text{Obj} \approx \sum_{i = 1}^N \left[ g_i f_t(\mathbf{x}i) + \frac{1}{2} h_i f_t^2(\mathbf{x}i) \right] + \Omega(f_t)
]
这里，( g_i = \partial{\hat{y}^{(t - 1)}} L(y_i, \hat{y}^{(t - 1)}) ) 是损失函数对前序模型预测值的一阶导数，( h_i = \partial{\hat{y}^{(t - 1)}}^2 L(y_i, \hat{y}^{(t - 1)}) ) 是二阶导数。二阶导数的引入使得XGBoost能够更准确地估计损失函数的曲率，从而更高效地找到最优解。

在这里插入图片描述

3. 代码实战：用户购买行为预测

3.1 数据准备（电商数据集）

在本次实战中，我们使用一个电商数据集来预测用户的购买行为。首先，加载数据集，并将特征和目标变量进行分离。

import pandas as pd
from sklearn.model_selection import train_test_split

# 加载数据集（特征：用户历史行为、商品属性、上下文信息）
data = pd.read_csv("user_purchase.csv"

最低0.47元/天解锁文章

200万优质内容无限畅学