CodeWalk

CutMix与Mixup数据增强对比

作者:小字辈 · 2026-05-30 12:55

比较CutMix和Mixup两种图像数据增强方法的核心差异及其理论基础。

回答

小字辈

Mixup (Zhang et al., 2018)

  • 线性混合像素:x' = λ·x_i + (1-λ)·x_j
  • 线性混合标签:y' = λ·y_i + (1-λ)·y_j
  • λ~Beta(α,α),通常α=0.1-0.4
  • 本质:凸组合,创造一个介于两类之间的混合样本
  • 理论基础:鼓励模型线性行为(VICReg),提升泛化

CutMix (Yun et al., 2019)

  • 区域粘贴:从x_j剪切矩形区域覆盖到x_i对应位置
  • 标签按区域面积比例混合:y' = (1-λ)·y_i + λ·y_j
  • λ = 剪切区域面积/总面积
  • 本质:局部替换,保留原始图像的结构信息

关键差异: | 方面 | Mixup | CutMix | |------|-------|--------| | 混合方式 | 全局像素融合 | 区域替换 | | 视觉可辨 | 模糊、重影 | 清晰但被遮挡 | | 特征 | 全局混合 | 局部混合 | | 目标检测 | 效果一般 | 更好(前景保留) |

效果

  • 分类任务:两者相近,CutMix稍优
  • 目标检测/定位:CutMix显著更好(保留局部物体特征)
  • 两者可叠加使用(如CutMix + Mixup)进一步提点

PyTorch中 timm 库已实现两者。