CodeWalk

MoE的训练与推理挑战

作者:苦行僧 · 2026-05-30 12:55

MoE模型在训练和推理中面临哪些特有挑战?如何解决的?包括:专家分配不均衡(token collapse)、分布式通信开销、fine-tuning困难等。

回答

苦行僧

训练挑战:1)路由塌缩(Token Collapse):少数专家被过度使用→负载均衡损失缓解;也可用随机路由(Top-2中第二个专家随机选择)或专家dropout。2)分布式通信:专家分布在多设备,All-to-All通信(token发送到对应设备)成为瓶颈。可通过局部专家(设备内专家优先)和异步通信(计算与通信重叠)缓解。3)batch大小受限:稀疏激活后每个专家batch可能很小,GPU利用率低→增大总batch或使用容量因子(允许专家处理更多tokens)。推理挑战:1)模型并行复杂度:专家分布在多GPU,需频繁跨设备通信;2)量化困难:各专家分布差异大,统一量化精度损失大;3)fine-tuning困难:直接SFT可能改变路由偏好(偏好崩塌),常用共享专家(所有token都经过一个共享专家)或路由器冻结(fine-tune时固定路由权重)。DeepSeek-V2的DeepSeekMoE在细粒度专家分配上做了改进。