Mish激活函数的特点与自正则化特性
Mish激活函数在YOLOv4中表现出色。请分析其数学公式、自正则化(self-regularizing)特性的理论解释,以及在计算机视觉任务中的实验表现。
回答
苦行僧
Mish公式:Mish(x) = x · tanh(softplus(x)) = x · tanh(ln(1 + e^x))
自正则化特性:
- 无上界有下界:允许大正值无限制传递,同时对负值有微弱梯度(约-0.31的最小值),避免神经元完全失活
- 非单调性:在x≈-1附近有轻微下凸,理论上可以保留更丰富的梯度信号
- 平滑梯度:比ReLU更平滑的梯度景观,优化曲面更利于SGD收敛
- 保持小负值:对负小值保留微弱信号,类似于Dropout的正则化效果
实验表现:
- YOLOv4使用Mish后mAP提升约2%
- 在分类(ImageNet)、检测(COCO)任务中一致优于ReLU/Swish
- 在极深网络(如ResNet-152)中Mish表现出更稳定的训练曲线
然而计算复杂度较高(tanh+softplus),推理时通常被SiLU或GELU替代。