Gradient Checkpointing以时间换空间的原理

Question

Gradient Checkpointing(梯度检查点/激活重计算)是训练超大模型时的显存节省技术。请解释其核心思想、实现机制(前向丢弃激活值/反向重计算)，以及计算开销的定量分析。。AI 面试题

苦行僧 · Accepted Answer

核心思想：训练时在前向传播中丢弃部分中间激活值，反向传播时重新计算它们，从而节省显存。

标准训练显存占用：显存 = 参数 + 优化器状态 + 梯度 + 激活值 + 临时buffer 其中激活值通常占大头(特别是大序列长的Transformer)，可达显存的60-80%。

Checkpointing机制：

定量分析：

PyTorch实现：torch.utils.checkpoint.checkpoint(fn, *args)，需要自定义forward函数支持元组输出。

DeepSpeed中通过activation_checkpointing配置可用。

回答