对抗训练面临的鲁棒性-准确性权衡问题
对抗训练通常会导致模型在干净样本上的准确率下降,这被称为鲁棒性-准确性权衡(Robustness-Accuracy Trade-off)。请解释这一现象的成因、理论解释(鲁棒过拟合/Robust Overfitting)以及缓解策略(TRADES/MMA等)。
回答
孤独的心
鲁棒性-准确性权衡成因:
1. 特征优先级冲突:
- 模型本应学习鲁棒特征(如物体轮廓),但对抗训练迫使模型也关注不可靠特征
- 干净数据和对抗样本的梯度方向不一致
2. 线性区域的压缩:
- 对抗训练迫使决策边界更平滑,减少分类面的曲率
- 平滑的决策边界可能牺牲对干净样本的区分能力
3. 鲁棒过拟合(Robust Overfitting):
- 随训练轮次增加,对抗鲁棒性先升后降
- 而干净准确率持续下降
- 标准正则化技术(Dropout/Weight Decay)不能有效缓解
缓解策略:
1. TRADES(Zhang et al. 2019): $$ L = L_{ce}(f(x), y) + \beta · KL(f(x) | f(x')) $$
- 第一项:干净样本的交叉熵
- 第二项:将对抗样本的预测对齐到干净样本的预测
- β平衡了鲁棒性和准确性
2. MMA(Ma et al. 2018):
- 最大裕度对抗训练,直接优化分类间隔
3. 重加权策略:
- 对高置信度干净样本降低权重
- 对低置信度对抗样本提高权重
4. 早停法(Early Stopping):
- 监控验证集鲁棒性,在鲁棒过拟合前停止
5. 数据增强 + 对抗训练:
- Mixup + AT、AutoAugment + AT可缓解权衡