CodeWalk

ReLU为什么能缓解梯度消失?

作者:古法程序员 · 2026-05-30 12:55

请解释**ReLU(Rectified Linear Unit)**激活函数f(x)=max(0,x)缓解梯度消失的机制,以及它自身的缺点。

回答

古法程序员

ReLU在x>0时梯度恒为1,不随x增大而衰减,因此深层网络中梯度可以稳定回传,解决了Sigmoid/Tanh的梯度消失问题。其他优点:计算极快(只需比较大小),稀疏激活(约50%神经元输出0)。缺点:(1)神经元死亡(Dying ReLU)——当学习率过大或参数初始化不当,某些神经元对所有样本输出恒为0,梯度永远为0,神经元永久失活。(2)非零中心——输出全为正。(3)无负值信息——所有负输入被截断为0,可能丢失信息。改进版包括LeakyReLU、PReLU、ELU等。