Preventing Catastrophic Overfitting in Fast Adversarial Training: A Bi-level Optimization Perspective¶
会议: ECCV2024
arXiv: 2407.12443
代码: HandingWangXDGroup/FGSM-PCO
领域: ai_safety
关键词: fast adversarial training, catastrophic overfitting, bi-level optimization, FGSM, adversarial examples
一句话总结¶
从双层优化视角分析快速对抗训练中灾难性过拟合的成因,提出 FGSM-PCO 方法,通过自适应融合历史与当前对抗样本并配合定制正则化损失,有效防止并纠正内层优化崩溃。
背景与动机¶
对抗训练(Adversarial Training, AT)是抵御对抗样本的有效手段,可建模为双层优化问题:内层最大化扰动以生成对抗样本,外层最小化模型在对抗样本上的损失。标准 PGD-AT 采用多步攻击求解内层问题,计算代价高。快速对抗训练(FAT)使用单步 FGSM 替代 PGD,大幅降低训练开销,但面临严重的灾难性过拟合问题——模型在 FGSM 攻击下准确率飙升,而在多步 PGD 攻击下准确率骤降至 0%。
现有 FAT 方法(如 FGSM-RS 随机初始化、FGSM-GA 梯度对齐正则、FGSM-MEP 动量扰动初始化)虽能延缓过拟合发生,但在复杂任务(如 Tiny-ImageNet)或大参数模型(如 WideResNet34-10)上仍无法完全避免灾难性过拟合。更关键的是,一旦过拟合发生,这些方法缺乏纠正机制来恢复有效训练。
核心问题¶
- 灾难性过拟合的根因:FGSM 的单步大步长攻击与交替优化机制耦合,极易导致内层优化崩溃——生成的对抗样本对当前模型无效,进而导致整个双层优化失效
- 现有方法缺陷:已有 FAT 方法只能推迟过拟合发生,无法在过拟合已发生后将训练拉回正轨
- 目标:设计一种 FAT 框架,既能预防灾难性过拟合,又能在过拟合趋势出现时自动纠正
方法详解¶
整体框架:FGSM-PCO¶
FGSM-PCO(Preventing Catastrophic Overfitting)的核心思想是:不直接使用当前 FGSM 生成的对抗样本训练,而是将历史对抗样本与当前对抗样本自适应融合后再用于训练。
1. 对抗样本生成与融合¶
给定上一轮对抗样本 \(\boldsymbol{x}_{t-1}^*\),当前阶段的处理流程为:
- 计算梯度方向:\(\mathbf{g}_t = \text{sign}(\nabla_{\mathbf{x}} \mathcal{L}(f_\theta(\boldsymbol{x}_{t-1}^*), \mathbf{y}))\)
- 生成放大对抗样本:\(\boldsymbol{x}_{am}^* = \boldsymbol{x}_{t-1}^* + \gamma \epsilon \mathbf{g}_t\),其中 \(\gamma\) 为放大因子(默认 \(\gamma=2\)),补偿融合带来的扰动衰减
- 自适应融合:\(\boldsymbol{x}_{train} = \lambda_t \boldsymbol{x}_{t-1}^* + (1-\lambda_t) \boldsymbol{x}_{am}^*\)
2. 自适应融合比例¶
融合因子 \(\lambda_t\) 由模型对当前对抗样本的分类置信度决定:
其中 \(k\) 是真实标签的索引。关键直觉:
- 正常训练时:对抗样本有效,模型对真实类的置信度低 → \(\lambda_t\) 小 → 更多使用当前对抗样本
- 过拟合趋势出现时:对抗样本失效,模型对真实类置信度高 → \(\lambda_t\) 大 → 更多保留历史对抗样本,避免依赖无效的当前对抗样本
这种机制确保了在过拟合发生时,训练样本自动偏向历史有效样本,从而纠正训练方向。
3. 定制正则化损失¶
为配合融合框架,提出 PCO 损失函数:
- 第一项:融合样本上的交叉熵损失,保证模型在对抗样本上的判别能力
- 第二项正则化:要求融合后样本的预测与前后两阶段对抗样本的预测保持一致,防止内层优化崩溃。\(\beta=10\) 为默认权重
4. 纠正能力¶
与其他 FAT 方法不同,FGSM-PCO 具备纠正已发生过拟合的能力。实验显示:当 FGSM-AT 在第 16 轮、FGSM-MEP 在第 50 轮发生过拟合后切换到 FGSM-PCO,模型均能恢复有效训练。
实验关键数据¶
CIFAR-10 + ResNet18¶
| 方法 | Clean Acc | PGD10 | PGD50 | AA | 训练时间 |
|---|---|---|---|---|---|
| PGD-AT (best) | 82.57 | 53.19 | 52.21 | 48.77 | 199 min |
| TRADES (best) | 82.03 | 54.06 | 53.16 | 49.47 | 241 min |
| FGSM-MEP (best) | 81.72 | 55.13 | 54.29 | 48.23 | 57 min |
| FGSM-PCO (best) | 82.05 | 56.32 | 55.67 | 48.04 | 60 min |
- PGD10 准确率比 PGD-AT 高 3.1%,比 FGSM-MEP 高 1.2%
- 最后一轮 checkpoint 与最佳 checkpoint 结果一致,证明无过拟合
CIFAR-100 + WideResNet34-10¶
| 方法 | Clean Acc | PGD10 | 训练时间 |
|---|---|---|---|
| PGD-AT | 62.45 | 32.36 | 1397 min |
| FGSM-MEP | 43.42 | 23.77 | 407 min |
| FGSM-PCO | 65.80 | 29.80 | 421 min |
- 10 次独立重复实验中,FGSM-PCO 0/10 次发生过拟合,而 FGSM-AT/FGSM-RS 均为 10/10,FGSM-MEP 为 6/10
Tiny-ImageNet + PreActResNet18¶
| 方法 | Clean Acc | PGD10 | PGD50 |
|---|---|---|---|
| PGD-AT (best) | 33.99 | 15.35 | 15.16 |
| FGSM-MEP (best) | 31.70 | 16.81 | 16.69 |
| FGSM-PCO (best) | 34.96 | 18.17 | 17.99 |
消融实验(CIFAR-10 + ResNet18)¶
- 仅融合(无自适应、无正则):PGD10 = 39.91%,发生过拟合
- 融合 + 正则损失:PGD10 = 54.27%,显著提升
- 融合 + 自适应:PGD10 = 50.67%
- 全部组件:PGD10 = 56.12%,三个组件缺一不可
亮点¶
- 从双层优化理论角度清晰解释了灾难性过拟合的本质——内层优化崩溃导致的连锁反应
- 自适应融合机制设计精巧:利用模型自身的分类置信度作为信号,无需额外超参数调节
- 首个具备纠正能力的 FAT 方法:不仅能预防过拟合,还能在过拟合发生后恢复训练
- 在 WideResNet34-10 + CIFAR-100 这一公认困难设置下,10/10 次完全避免过拟合
- 比 FGSM-MEP 仅多 3 分钟训练时间,但节省 1/3 显存
局限性 / 可改进方向¶
- 训练开销仍高于最简单的 FAT:需要存储上一轮对抗样本并做额外前向传播,比 FGSM-RS 慢约 50%
- 放大因子 \(\gamma\) 固定为 2:未探索动态调整策略,不同数据集/模型可能需要不同设置
- AA(AutoAttack)指标上未超越 TRADES:在最强攻击下的鲁棒性仍有差距(48.04% vs 49.47%)
- 仅验证了 \(l_\infty\) 范数约束:未讨论对 \(l_2\) 等其他范数约束的适用性
- 数据集规模有限:最大仅验证到 Tiny-ImageNet(64×64),未在 ImageNet 全尺寸上测试
与相关工作的对比¶
| 方法 | 核心策略 | 能否防止过拟合 | 能否纠正过拟合 | 额外开销 |
|---|---|---|---|---|
| FGSM-RS | 随机初始化 + 大步长 | 部分 | 否 | 无 |
| FGSM-GA | 梯度对齐正则 | 部分 | 否 | 中等 |
| FGSM-MEP | 动量扰动初始化 | 大部分 | 否 | 显存高 |
| FGSM-PCO | 自适应融合 + 正则 | 完全 | 是 | 显存低 |
与 FGSM-MEP 的关键区别:MEP 通过累积梯度动量初始化扰动,降低内层优化失败风险但无法纠正;PCO 通过融合历史样本直接参与训练,当过拟合趋势出现时自动增加历史样本比例来纠正方向。
启发与关联¶
- 自适应融合思想可推广到其他容易崩溃的训练场景(如 GAN 训练、强化学习中的策略崩溃)
- 利用模型自身置信度作为训练状态的监控信号,是一种轻量且通用的诊断机制
- 历史样本复用的思路与 experience replay(经验回放)异曲同工,可探索在对抗训练中引入更丰富的历史信息
- 正则化项要求"融合前后预测一致",与知识蒸馏中的 consistency regularization 有联系
评分¶
- 新颖性: ⭐⭐⭐⭐ — 双层优化视角的分析有深度,自适应融合机制简洁有效
- 实验充分度: ⭐⭐⭐⭐ — 三个数据集三个模型,含消融、敏感性分析和纠正能力验证
- 写作质量: ⭐⭐⭐⭐ — 问题动机清晰,方法推导完整
- 价值: ⭐⭐⭐⭐ — FAT 领域的实用改进,解决了长期困扰的灾难性过拟合问题