MoE混合专家模型的核心架构

Question

MoE（Mixture of Experts）是扩大模型参数量同时保持推理效率的关键技术。请解释MoE的核心组件（Router/Gate、Expert网络）、Top-K路由机制、负载均衡损失。Mixtral 8×7B是如何实现约47B总参但只激活13B的？。AI 面试题。Mistral AI 面试题

Yahuda · Accepted Answer

核心架构：MoE层包含N个专家（Expert，每个是一个FFN），和一个Router（门控网络，通常是线性层+softmax）。每个token通过Router计算路由分数，选择Top-K个专家（如K=2）。token输入被路由到选中的专家，各专家输出加权求和（权重为路由分数softmax后的值）。负载均衡损失：辅助损失鼓励所有专家被均匀选到，避免路由塌缩（所有token都去同一个专家）。Mixtral 8×7B：共8个专家（每个~7B参数量），每层选2个。总参数≈47B（共享注意力+8个专家），推理时只激活约13B（一个注意力+2个专家FFN）。这使得Mixtral在推理速度上接近13B模型（每步约13B激活），但质量接近47B模型。MoE的挑战包括：通信开销（专家分布在多GPU）、负载不均衡、finetune困难。

MoE混合专家模型的核心架构

回答

Yahuda