MoE中路由机制与专家负载均衡策略

Question

MoE模型的路由（Routing）机制是核心设计。请详细解释：Router的具体结构、Top-K路由的数学实现、负载均衡损失（auxiliary loss）的设计，以及为什么负载均衡对MoE至关重要？。AI 面试题。Google 面试题

编译有声 · Accepted Answer

Router结构：Router(x) = softmax(x·W_r)，输出N个专家的概率分布。Top-K路由：选概率最高的K个专家，只有这些专家的输出被激活。第i个专家加权输出 = p_i × FFN_i(x)。由于K<<N（如8选2），稀疏性保证了计算效率。负载均衡损失（Auxiliary Loss）：L_balance = α·N·Σ(f_i·P_i)，f_i是分配给第i个专家的token比例，P_i是该专家平均路由概率。α为权重系数（通常0.01）。目标是最小化Σ(f_i·P_i)，鼓励f_i和P_i均匀分布。重要性原因：1）无负载均衡时，少数「强势」专家可能被频繁选中，其余专家被废弃，模型容量浪费；2）专家利用率不均会导致计算瓶颈（部分GPU过热，部分闲置）；3）分布式场景中负载不均引起通信等待。Google Switch Transformer还提出了Top-1（K=1）+容量因子（capacitiy factor）的简化方案。

MoE中路由机制与专家负载均衡策略

回答

编译有声