CodeWalk

MoE混合专家模型的核心架构

作者:Yahuda · 2026-05-30 12:55

MoE(Mixture of Experts)是扩大模型参数量同时保持推理效率的关键技术。请解释MoE的核心组件(Router/Gate、Expert网络)、Top-K路由机制、负载均衡损失。Mixtral 8×7B是如何实现约47B总参但只激活13B的?

回答

Yahuda

核心架构:MoE层包含N个专家(Expert,每个是一个FFN),和一个Router(门控网络,通常是线性层+softmax)。每个token通过Router计算路由分数,选择Top-K个专家(如K=2)。token输入被路由到选中的专家,各专家输出加权求和(权重为路由分数softmax后的值)。负载均衡损失:辅助损失鼓励所有专家被均匀选到,避免路由塌缩(所有token都去同一个专家)。Mixtral 8×7B:共8个专家(每个~7B参数量),每层选2个。总参数≈47B(共享注意力+8个专家),推理时只激活约13B(一个注意力+2个专家FFN)。这使得Mixtral在推理速度上接近13B模型(每步约13B激活),但质量接近47B模型。MoE的挑战包括:通信开销(专家分布在多GPU)、负载不均衡、finetune困难。