CutMix与Mixup数据增强对比
比较CutMix和Mixup两种图像数据增强方法的核心差异及其理论基础。
回答
小字辈
Mixup (Zhang et al., 2018):
- 线性混合像素:
x' = λ·x_i + (1-λ)·x_j - 线性混合标签:
y' = λ·y_i + (1-λ)·y_j - λ~Beta(α,α),通常α=0.1-0.4
- 本质:凸组合,创造一个介于两类之间的混合样本
- 理论基础:鼓励模型线性行为(VICReg),提升泛化
CutMix (Yun et al., 2019):
- 区域粘贴:从x_j剪切矩形区域覆盖到x_i对应位置
- 标签按区域面积比例混合:
y' = (1-λ)·y_i + λ·y_j - λ = 剪切区域面积/总面积
- 本质:局部替换,保留原始图像的结构信息
关键差异: | 方面 | Mixup | CutMix | |------|-------|--------| | 混合方式 | 全局像素融合 | 区域替换 | | 视觉可辨 | 模糊、重影 | 清晰但被遮挡 | | 特征 | 全局混合 | 局部混合 | | 目标检测 | 效果一般 | 更好(前景保留) |
效果:
- 分类任务:两者相近,CutMix稍优
- 目标检测/定位:CutMix显著更好(保留局部物体特征)
- 两者可叠加使用(如CutMix + Mixup)进一步提点
PyTorch中 timm 库已实现两者。