CodeWalk

对抗训练面临的鲁棒性-准确性权衡问题

作者:孤独的心 · 2026-05-30 12:55

对抗训练通常会导致模型在干净样本上的准确率下降,这被称为鲁棒性-准确性权衡(Robustness-Accuracy Trade-off)。请解释这一现象的成因、理论解释(鲁棒过拟合/Robust Overfitting)以及缓解策略(TRADES/MMA等)。

回答

孤独的心

鲁棒性-准确性权衡成因

1. 特征优先级冲突

  • 模型本应学习鲁棒特征(如物体轮廓),但对抗训练迫使模型也关注不可靠特征
  • 干净数据和对抗样本的梯度方向不一致

2. 线性区域的压缩

  • 对抗训练迫使决策边界更平滑,减少分类面的曲率
  • 平滑的决策边界可能牺牲对干净样本的区分能力

3. 鲁棒过拟合(Robust Overfitting)

  • 随训练轮次增加,对抗鲁棒性先升后降
  • 而干净准确率持续下降
  • 标准正则化技术(Dropout/Weight Decay)不能有效缓解

缓解策略

1. TRADES(Zhang et al. 2019): $$ L = L_{ce}(f(x), y) + \beta · KL(f(x) | f(x')) $$

  • 第一项:干净样本的交叉熵
  • 第二项:将对抗样本的预测对齐到干净样本的预测
  • β平衡了鲁棒性和准确性

2. MMA(Ma et al. 2018)

  • 最大裕度对抗训练,直接优化分类间隔

3. 重加权策略

  • 对高置信度干净样本降低权重
  • 对低置信度对抗样本提高权重

4. 早停法(Early Stopping)

  • 监控验证集鲁棒性,在鲁棒过拟合前停止

5. 数据增强 + 对抗训练

  • Mixup + AT、AutoAugment + AT可缓解权衡