GBDT的梯度近似思想和负梯度拟合详解
GBDT(Gradient Boosting Decision Tree)核心思想是用损失函数的负梯度来近似残差。请详细解释这一过程,包括数学推导和实际意义。
回答
屠龙少年
GBDT核心思想:每轮用决策树拟合损失函数在当前模型下的负梯度。
数学推导:
- 设第t-1轮模型为F_{t-1}(x),目标是最小化损失L(y, F(x))
- 对于第t轮,我们希望找到增量h_t(x)使L(y, F_{t-1}+h_t)最小
- 对损失函数做一阶泰勒展开:L ≈ L(F_{t-1}) + g·h_t,其中g = ∂L/∂F
- 为最小化损失,取h_t = -g(负梯度方向)
为什么用负梯度替代残差:
- 当损失为MSE时,负梯度正好等于残差 y - F_{t-1}(x)
- 当损失为绝对损失、Huber损失、对数损失等时,负梯度提供了通用的优化方向
- 这使得GBDT可以灵活适配各类损失函数(分类、回归、排序等)
实际意义:
- 每棵树拟合的是"当前模型还不够好的方向"
- 学习率η控制每棵树的贡献:F_t = F_{t-1} + η·h_t,防止过拟合