Xavier初始化的原理和适用场景
请解释Xavier/Glorot初始化的数学原理,为什么它适合Sigmoid/Tanh激活函数?
回答
我还是少年
Xavier初始化由Glorot & Bengio(2010)提出。核心思想:保持各层激活值的方差一致,避免信号在深层网络中消失或爆炸。方法:权重从均匀分布U[-√(6/(n_in+n_out)), √(6/(n_in+n_out))]或正态分布N(0, √(2/(n_in+n_out)))采样。n_in为输入维度,n_out为输出维度。适用Sigmoid/Tanh的原因:这些函数在0附近近似线性,Xavier确保输入落在激活函数的线性区域,梯度正常传播。不适用ReLU:ReLU会将一半输出置0,实际方差减半。ReLU应用He初始化(方差放大一倍)。