CodeWalk

MoE中路由机制与专家负载均衡策略

作者:编译有声 · 2026-05-30 12:55

MoE模型的路由(Routing)机制是核心设计。请详细解释:Router的具体结构、Top-K路由的数学实现、负载均衡损失(auxiliary loss)的设计,以及为什么负载均衡对MoE至关重要?

回答

编译有声

Router结构:Router(x) = softmax(x·W_r),输出N个专家的概率分布。Top-K路由:选概率最高的K个专家,只有这些专家的输出被激活。第i个专家加权输出 = p_i × FFN_i(x)。由于K<<N(如8选2),稀疏性保证了计算效率。负载均衡损失(Auxiliary Loss):L_balance = α·N·Σ(f_i·P_i),f_i是分配给第i个专家的token比例,P_i是该专家平均路由概率。α为权重系数(通常0.01)。目标是最小化Σ(f_i·P_i),鼓励f_i和P_i均匀分布。重要性原因:1)无负载均衡时,少数「强势」专家可能被频繁选中,其余专家被废弃,模型容量浪费;2)专家利用率不均会导致计算瓶颈(部分GPU过热,部分闲置);3)分布式场景中负载不均引起通信等待。Google Switch Transformer还提出了Top-1(K=1)+容量因子(capacitiy factor)的简化方案。