Tanh激活函数为什么比Sigmoid更常用?
请比较**Tanh(双曲正切)**和Sigmoid激活函数的异同,解释为什么隐藏层更倾向使用Tanh而非Sigmoid。
回答
苦行僧
Tanh(x) = (e^x - e^{-x})/(e^x + e^{-x}) = 2σ(2x)-1,输出范围(-1,1)。相比Sigmoid的优势:(1)零中心——输出正负对称,缓解了Sigmoid非零中心导致的梯度更新Zigzag问题,收敛更快。(2)梯度更强——在x=0处梯度为1(Sigmoid为0.25),梯度信号更强。共同缺点:在饱和区(|x|>3)梯度依然接近0,梯度消失问题仍然存在。现代使用:Tanh在RNN/LSTM/GRU的门控单元中广泛使用,但在深层前馈网络中已基本被ReLU取代。Tanh在需要输出有正有负的场景(如归一化后的隐藏表示)中仍有价值。