EMA(指数移动平均)在模型训练中的作用

Question

EMA(Exponential Moving Average)是模型训练中常用的提点技巧。请解释EMA的工作原理、数学公式，以及其在半监督学习(如Mean Teacher)、目标检测和GAN训练中的具体应用。。AI 面试题

屠龙少年 · Accepted Answer

EMA维护模型参数的滑动平均，使模型参数更平滑、泛化更强。

数学公式： θ_ema = α · θ_ema + (1 - α) · θ_online

其中θ_online是当前网络参数，θ_ema是EMA参数，α是衰减系数(通常0.999~0.9999)。

典型实现方式：

为什么有效：

应用场景：

在PyTorch中可使用torch.optim.swa_utils.AveragedModel或第三方库(如pytorch-ema)。

回答