CodeWalk

Mish激活函数的特点与自正则化特性

作者:苦行僧 · 2026-05-30 12:55

Mish激活函数在YOLOv4中表现出色。请分析其数学公式、自正则化(self-regularizing)特性的理论解释,以及在计算机视觉任务中的实验表现。

回答

苦行僧

Mish公式:Mish(x) = x · tanh(softplus(x)) = x · tanh(ln(1 + e^x))

自正则化特性:

  1. 无上界有下界:允许大正值无限制传递,同时对负值有微弱梯度(约-0.31的最小值),避免神经元完全失活
  2. 非单调性:在x≈-1附近有轻微下凸,理论上可以保留更丰富的梯度信号
  3. 平滑梯度:比ReLU更平滑的梯度景观,优化曲面更利于SGD收敛
  4. 保持小负值:对负小值保留微弱信号,类似于Dropout的正则化效果

实验表现:

  • YOLOv4使用Mish后mAP提升约2%
  • 在分类(ImageNet)、检测(COCO)任务中一致优于ReLU/Swish
  • 在极深网络(如ResNet-152)中Mish表现出更稳定的训练曲线

然而计算复杂度较高(tanh+softplus),推理时通常被SiLU或GELU替代。