Dropout的工作原理和训练/推理差异

Question

请解释Dropout的正则化原理，以及训练阶段和推理阶段的具体实现差异。。AI 面试题

我还是少年 · Accepted Answer

Dropout由Hinton等(2014)提出。训练时：以概率p随机丢弃（置0）每个神经元，保留的神经元输出乘以1/(1-p)进行缩放（保持期望值不变）。推理时：所有神经元都参与计算，不再丢弃也不缩放。正则化原理：(1)防止神经元共适应(Co-adaptation)——迫使网络学习冗余的鲁棒特征。(2)类似模型集成——每次Dropout产生不同的子网络，推理时等效于所有子网络的均值集成。(3)贝叶斯近似——Dropout可解释为贝叶斯变分推断的近似。最新趋势：在Transformer/ViT中，Dropout常被DropPath(随机丢弃整个残差块)替代。

Dropout的工作原理和训练/推理差异

回答

我还是少年