He初始化为何更适合ReLU系列？

Question

请解释He/Kaiming初始化的数学推导，以及它相比Xavier初始化对ReLU类激活函数的改进。。AI 面试题。Microsoft 面试题

苦行僧 · Accepted Answer

He初始化由Kaiming He等(2015)提出，专为ReLU设计。推导：ReLU将一半输入置0，输出方差减半。为使方差在各层间保持不变，需要将初始权重方差放大一倍。方法：权重从N(0, √(2/n_in))或U[-√(6/n_in), √(6/n_in)]采样。与Xavier对比：(1)Xavier方差为1/n_in（均匀版本为2/(n_in+n_out)），He方差为2/n_in。(2)He将方差放大2倍，补偿ReLU的方差减半效果。(3)在ReLU/PReLU网络中使用He初始化可避免梯度消失/爆炸，使深层网络（如50层ResNet）能够稳定训练。适用：ReLU、LeakyReLU、PReLU、ELU等。

He初始化为何更适合ReLU系列？

回答

苦行僧