ZeRO优化阶段的内存节省原理

Question

ZeRO(Zero Redundancy Optimizer)是DeepSpeed的核心优化技术。请详解ZeRO的三个优化阶段(Stage 1/2/3)分别节省了哪些显存，以及ZeRO-Offload如何借助CPU内存扩展单卡训练能力。。AI 面试题。Microsoft 面试题

编译有声 · Accepted Answer

ZeRO的核心思想：消除数据并行中的冗余，各种状态仅在每个GPU上保持一份分片。

Stage 1 — 优化器状态分片(Optimizer State Partitioning)：

Stage 2 — 梯度分片(Gradient Partitioning)：

Stage 3 — 参数分片(Parameter Partitioning)：

ZeRO-Offload：

ZeRO-Infinity：

实践：HuggingFace中通过--zero_stage 2/3启用。

回答