MoE的训练与推理挑战

Question

MoE模型在训练和推理中面临哪些特有挑战？如何解决的？包括：专家分配不均衡（token collapse）、分布式通信开销、fine-tuning困难等。。AI 面试题

苦行僧 · Accepted Answer

训练挑战：1）路由塌缩（Token Collapse）：少数专家被过度使用→负载均衡损失缓解；也可用随机路由（Top-2中第二个专家随机选择）或专家dropout。2）分布式通信：专家分布在多设备，All-to-All通信（token发送到对应设备）成为瓶颈。可通过局部专家（设备内专家优先）和异步通信（计算与通信重叠）缓解。3）batch大小受限：稀疏激活后每个专家batch可能很小，GPU利用率低→增大总batch或使用容量因子（允许专家处理更多tokens）。推理挑战：1）模型并行复杂度：专家分布在多GPU，需频繁跨设备通信；2）量化困难：各专家分布差异大，统一量化精度损失大；3）fine-tuning困难：直接SFT可能改变路由偏好（偏好崩塌），常用共享专家（所有token都经过一个共享专家）或路由器冻结（fine-tune时固定路由权重）。DeepSeek-V2的DeepSeekMoE在细粒度专家分配上做了改进。

MoE的训练与推理挑战

回答

苦行僧