CodeWalk

ELU激活函数与ReLU的对比

作者:编译有声 · 2026-05-30 12:55

请解释**ELU(Exponential Linear Unit)**激活函数f(x)=x if x>0 else α(e^x-1)的设计动机、优点和局限。

回答

编译有声

ELU在x>0时与ReLU相同,x≤0时为指数衰减到-α(α常取1)。设计动机:让负值部分不仅有非零梯度,还能使输出均值趋近于0(近似零中心)。优点:(1)缓解Dying ReLU——负半轴有非零梯度。(2)输出均值接近0——加速收敛(类似BatchNorm的效果但无需额外参数)。(3)对噪声更鲁棒——负半轴饱和到-α,滤除小的噪声输入。缺点:(1)指数运算计算量大于ReLU。(2)α(e^x-1)在x很负时梯度接近0,极端情况下仍有梯度饱和。(3)性能提升相对ReLU有限。改进:SELU(Scaled ELU)是ELU的扩展,可自动实现自归一化(Self-Normalizing Networks)。