Data Parallel分布式训练的原理与局限

Question

Data Parallel(数据并行)是最基础的分布式训练方式。请解释其同步/异步两种模式的训练流程、梯度AllReduce通信原理，以及在超大模型场景下的显存瓶颈。。AI 面试题

编译有声 · Accepted Answer

数据并行：将训练数据分布到多个GPU上，每个GPU持有完整模型副本，独立计算梯度后同步。

同步模式流程：

AllReduce原理：

Ring AllReduce：在GPU之间形成环，需要2×(N-1)次通信
- Scatter-Reduce阶段：逐步求和
- AllGather阶段：分发结果
通信量O(N)而非O(N²)，带宽利用高

异步模式：

显存瓶颈：

PyTorch DDP样例：torch.nn.parallel.DistributedDataParallel(model)。

混合使用：DP常与模型并行/ZeRO结合。

回答