Mish激活函数的特点与自正则化特性

作者：苦行僧 · 2026-05-30 12:55

Mish激活函数在YOLOv4中表现出色。请分析其数学公式、自正则化(self-regularizing)特性的理论解释，以及在计算机视觉任务中的实验表现。

回答

苦行僧

Mish公式：Mish(x) = x · tanh(softplus(x)) = x · tanh(ln(1 + e^x))

自正则化特性：

无上界有下界：允许大正值无限制传递，同时对负值有微弱梯度(约-0.31的最小值)，避免神经元完全失活
非单调性：在x≈-1附近有轻微下凸，理论上可以保留更丰富的梯度信号
平滑梯度：比ReLU更平滑的梯度景观，优化曲面更利于SGD收敛
保持小负值：对负小值保留微弱信号，类似于Dropout的正则化效果

实验表现：

YOLOv4使用Mish后mAP提升约2%
在分类(ImageNet)、检测(COCO)任务中一致优于ReLU/Swish
在极深网络(如ResNet-152)中Mish表现出更稳定的训练曲线

然而计算复杂度较高(tanh+softplus)，推理时通常被SiLU或GELU替代。