Dropout的工作原理和训练/推理差异
请解释Dropout的正则化原理,以及训练阶段和推理阶段的具体实现差异。
回答
我还是少年
Dropout由Hinton等(2014)提出。训练时:以概率p随机丢弃(置0)每个神经元,保留的神经元输出乘以1/(1-p)进行缩放(保持期望值不变)。推理时:所有神经元都参与计算,不再丢弃也不缩放。正则化原理:(1)防止神经元共适应(Co-adaptation)——迫使网络学习冗余的鲁棒特征。(2)类似模型集成——每次Dropout产生不同的子网络,推理时等效于所有子网络的均值集成。(3)贝叶斯近似——Dropout可解释为贝叶斯变分推断的近似。最新趋势:在Transformer/ViT中,Dropout常被DropPath(随机丢弃整个残差块)替代。