GBDT、XGBoost和LightGBM:
- GBDT(梯度提升决策树):GBDT 是梯度提升框架下的经典算法,是理解 XGBoost 和 LightGBM 的基础。通过迭代地构建决策树,每棵树都试图纠正前一棵树的错误,最终形成一个强大的预测模型。先学习 GBDT ,入理解梯度提升的基本原理、损失函数的优化方式以及决策树作为弱学习器的集成过程。
- XGBoost(极端梯度提升):XGBoost 是在 GBDT 的基础上进行了一系列的优化和改进。在目标函数中加入了正则化项,以防止过拟合,并且采用了二阶导数信息来加速收敛,提高了模型的训练速度和预测精度。学习 XGBoost 可以了解到如何在 GBDT 的基础上进行算法优化和工程实现,进一步提升对梯度提升算法的理解和应用能力。
- LightGBM(轻量级梯度提升机器):LightGBM 是另一种高效的梯度提升框架,在 XGBoost 的基础上又做了一些改进,如采用了基于直方图的算法、单边梯度抽样算法和互斥特征捆绑算法等,这些改进使得 LightGBM 在训练速度和内存效率上有了显著的提升。
除了这三种模型外,看到的一些其他优秀的衍生模型:
- CatBoost:它是由 Yandex 开发的一种梯度提升算法,特别针对类别特征进行了优化,能够自动处理类别特征并有效防止过拟合。CatBoost 在一些数据集上的表现非常出色,尤其是在处理含有大量类别特征的数据时。
- AdaBoost(自适应提升算法):它是一种经典的提升算法,通过自适应地调整样本的权重,使得后续的弱学习器能够更加关注那些被之前的学习器错误分类的样本。AdaBoost 虽然不是基于决策树的,但它是提升算法的重要代表之一,学习 AdaBoost 可以帮助你更深入地理解提升算法的原理和思想。