He初始化为何更适合ReLU系列?
请解释He/Kaiming初始化的数学推导,以及它相比Xavier初始化对ReLU类激活函数的改进。
回答
苦行僧
He初始化由Kaiming He等(2015)提出,专为ReLU设计。推导:ReLU将一半输入置0,输出方差减半。为使方差在各层间保持不变,需要将初始权重方差放大一倍。方法:权重从N(0, √(2/n_in))或U[-√(6/n_in), √(6/n_in)]采样。与Xavier对比:(1)Xavier方差为1/n_in(均匀版本为2/(n_in+n_out)),He方差为2/n_in。(2)He将方差放大2倍,补偿ReLU的方差减半效果。(3)在ReLU/PReLU网络中使用He初始化可避免梯度消失/爆炸,使深层网络(如50层ResNet)能够稳定训练。适用:ReLU、LeakyReLU、PReLU、ELU等。