PyTorch FSDP全分片数据并行原理

Question

请解释PyTorch FSDP(Fully Sharded Data Parallel)的原理。FSDP与DDP有什么不同？sharding_strategy和auto_wrap_policy的作用是什么？。AI 面试题。Meta 面试题

孤独的心 · Accepted Answer

FSDP将模型参数/梯度/优化器状态分片到各设备。

vs DDP：

sharding_strategy：

auto_wrap_policy：决定哪些子模块单独分片(如每层Transformer)。

适用：训练7B/13B/70B大模型，单卡无法容纳时。

回答