CodeWalk

批量梯度下降与随机梯度下降的区别

作者:Yahuda · 2026-05-30 12:55

请比较批量梯度下降(BGD)、**随机梯度下降(SGD)小批量梯度下降(Mini-Batch GD)**的异同。

回答

Yahuda

(1)BGD:每次迭代使用全部样本计算梯度。优点是梯度方向准确、收敛稳定;缺点是计算量大、内存占用大、无法在线学习。(2)SGD:每次随机选一个样本计算梯度。优点是计算快、支持在线学习、有助跳出局部最优;缺点是梯度噪声大、收敛不稳定。(3)Mini-Batch GD(折中方案,最常用):每次使用batch size个样本(如32/64/128)。兼具两者优点——比BGD快、比SGD稳定,且能高效利