Xavier初始化的原理和适用场景

Question

请解释Xavier/Glorot初始化的数学原理，为什么它适合Sigmoid/Tanh激活函数？。AI 面试题

我还是少年 · Accepted Answer

Xavier初始化由Glorot & Bengio(2010)提出。核心思想：保持各层激活值的方差一致，避免信号在深层网络中消失或爆炸。方法：权重从均匀分布U[-√(6/(n_in+n_out)), √(6/(n_in+n_out))]或正态分布N(0, √(2/(n_in+n_out)))采样。n_in为输入维度，n_out为输出维度。适用Sigmoid/Tanh的原因：这些函数在0附近近似线性，Xavier确保输入落在激活函数的线性区域，梯度正常传播。不适用ReLU：ReLU会将一半输出置0，实际方差减半。ReLU应用He初始化（方差放大一倍）。

Xavier初始化的原理和适用场景

回答

我还是少年