CodeWalk

Swish激活函数的自门控机制是什么?

作者:小字辈 · 2026-05-30 12:55

请介绍**Swish/SiLU (Sigmoid Linear Unit)**激活函数f(x)=x·σ(βx)的特性,以及它为什么被称为自门控激活函数?

回答

小字辈

Swish = x · sigmoid(βx),由Google Brain发现(2017)。当β=1时即为SiLU。自门控:输出为输入x乘以sigmoid(βx)——sigmoid充当「门控信号」,输入自身决定自己的门控值。特性:(1)无上界有下界(类似ReLU)。(2)非单调——在x负半轴附近有「凹陷」(先负后正),这在小输入范围内保留了负值信息。(3)导数非恒为0或1——提供了更丰富的梯度信号。(4)平滑可导。效果:在深层网络(尤其是ImageNet分类任务)中Swish/SiLU一致优于ReLU,是当前SOTA模型(如EfficientNet、Vision Transformer)的首选。