ACON激活函数的自适应选择机制
ACON(Activate Or Not)是一类自适应激活函数,提出'是否激活'可学习的思路。请解释ACON-A/B/C三种变体的设计原理,以及Swish作为ACON特例的推导。
回答
孤独的心
ACON的核心思想:将ReLU(硬选择)平滑化为可学习的软选择。
三种变体:
- ACON-A:ACON(x) = x · σ(βx),即Swish/β可变的版本
- ACON-B:ACON(x) = (p1 - p2) · σ(βx) + p2·x,引入p1、p2两个可学习参数控制上下界
- ACON-C:ACON(x) = (p1 - p2) · σ(β(x - γ)) + p2·x,增加γ偏移量,是表达能力最强的变体
理论推导:ReLU的Max形式为Max(x, 0),平滑近似为x · σ(ηx);类似地,PReLU的平滑近似即为ACON-A。
实际应用:Meta-ACON通过一个小型网络(SE-like结构)自适应预测β、p1、p2参数,实现实例级别的自适应激活。在MobileNet和EfficientNet上,ACON-C比ReLU提升1-2%准确率。