Gradient Accumulation的原理与实现

Question

Gradient Accumulation(梯度累积)是训练大模型时在小显存上模拟大批量的关键技术。请解释其工作原理、实现步骤，以及它与实际大批量训练在BN统计量上的差异。。AI 面试题

我是大山 · Accepted Answer

原理：将一个大Batch拆分为多个Micro-Batch，分别前向-反向得到梯度，累积梯度后统一更新参数。

实现步骤(以有效batch=64，微批大小=16，累积步数=4为例)：

注意：梯度累积均值 vs 求和——通常将损失除以累积步数：loss = loss / accum_steps，再反向传播，这样等效于大批量的均值梯度。

与真实大批量的差异：

实践：HuggingFace Trainer中通过gradient_accumulation_steps参数设置。典型的梯度累积在LLaMA-Factory等微调框架中默认使用。

回答