Momentum梯度下降的原理是什么?
请解释**带动量的梯度下降(Gradient Descent with Momentum)**的核心思想,它如何加速收敛并逃离局部最优?
回答
我是大山
Momentum模拟物理中的惯性概念。累积历史梯度方向作为动量,更新公式:v_t = γv_{t-1} + η∇L(θ),θ = θ - v_t。其中γ为动量系数(通常0.9)。优势:(1)加速收敛——在梯度方向一致的平缓区域累积速度,更快到达最优。(2)平滑震荡——在梯度方向剧烈变化的区域(如峡谷地形),动量项抵消高频震荡,稳定前进方向。(3)逃离局部最优——动量赋予模型「冲劲」,帮助越过浅的局