对抗训练面临的鲁棒性-准确性权衡问题

Question

对抗训练通常会导致模型在干净样本上的准确率下降，这被称为鲁棒性-准确性权衡（Robustness-Accuracy Trade-off）。请解释这一现象的成因、理论解释（鲁棒过拟合/Robust Overfitting）以及缓解策略（TRADES/MMA等）。。AI 面试题

孤独的心 · Accepted Answer

鲁棒性-准确性权衡成因： 1. 特征优先级冲突： 模型本应学习鲁棒特征（如物体轮廓），但对抗训练迫使模型也关注不可靠特征 干净数据和对抗样本的梯度方向不一致 2. 线性区域的压缩： 对抗训练迫使决策边界更平滑，减少分类面的曲率 平滑的决策边界可能牺牲对干净样本的区分能力 3. 鲁棒过拟合（Robust Overfitting）： 随训练轮次增加，对抗鲁棒性先升后降 而干净准确率持续下降 标准正则化技术（Dropout/Weight Decay）不能有效缓解 缓解策略： 1. TRADES（Zhang et al. 2019）： $$ L = L_{ce}(f(x), y) + \beta · KL(f(x) | f(x')) $$ 第一项：干净样本的交叉熵 第二项：将对抗样本的预测对齐到干净样本的预测 β平衡了鲁棒性和准确性 2. MMA（Ma et al. 2018）： 最大裕度对抗训练，直接优化分类间隔 3. 重加权策略： 对高置信度干净样本降低权重 对低置信度对抗样本提高权重 4. 早停法（Early Stopping）： 监控验证集鲁棒性，在鲁棒过拟合前停止 5. 数据增强 ...

对抗训练面临的鲁棒性-准确性权衡问题

回答

孤独的心