Model Parallel与Pipeline Parallel的区别

Question

Model Parallel(模型并行)和Pipeline Parallel(流水线并行)是处理超大模型的核心技术。请解释两者的原理差异、显存分布方式，以及GPipe和1F1B两种调度策略的优缺点。。AI 面试题

编译有声 · Accepted Answer

Model Parallel(MP) = Tensor Parallel：

Pipeline Parallel(PP)：

两种调度策略：

GPipe(Google)：
- 将Batch拆分为micro-batches，每个micro-batch依次通过整个pipeline
- 优点：实现简单
- 缺点：有空泡(bubble)浪费，空泡比例=(P-1)/M，P为GPU数，M为micro-batch数
1F1B(One-Forward-One-Backward)：
- 前向和反向交错执行，减少空泡
- GPU收到micro-batch后立即前向，再立即反向
- 空泡比例显著降低，接近最优
- 被DeepSpeed PP和Megatron-LM采用

实践组合(Megatron-LM)：TP组内做张量并行，PP组间做流水线并行，DP跨组。

当前标准推荐：TP=8，PP=4~8的组合。

回答