Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks¶

会议: CVPR 2025
arXiv: 2411.15210
代码: 无
领域: 其他（对抗鲁棒性）
关键词: 概率边际攻击, 对抗鲁棒性评估, 白盒攻击, 百万级评估, 损失函数设计

一句话总结¶

本文提出 Probability Margin Attack (PMA)，在概率空间而非 logits 空间定义对抗边际损失函数，其梯度等价于无目标和有目标交叉熵损失的自适应加权组合，一致性地超越现有个体攻击方法；基于此构建百万级评估数据集 CC1M，首次开展对抗训练模型的百万规模白盒鲁棒性评估。

研究背景与动机¶

领域现状：白盒对抗攻击是评估模型对抗鲁棒性的核心工具。PGD 是强效的一阶攻击，AutoAttack (AA) 是集成四种攻击的标准评估方法。RobustBench 排行榜上的模型均使用 AA 进行鲁棒性验证。

现有痛点：PGD 在遇到混淆梯度时效果不佳，AA 计算成本极高（运行时间常超过训练时间），在大规模评估场景下不可行。现有损失函数存在缺陷：交叉熵同时向所有非目标方向探索但难以集中于最优方向；有目标交叉熵集中于 \(z_{max}\) 但抑制了其他攻击方向的探索；margin loss (\(z_{max} - z_y\)) 只看两个 logit 忽略其他类别信息；DLR 虽额外考虑第三大 logit 但仍遗漏其他维度。

核心矛盾：个体攻击效率高但强度不足，集成攻击强度高但效率低——在百万级评估需求下，需要接近集成攻击强度的高效个体攻击方法。

本文目标：(1) 设计更强的个体攻击损失函数；(2) 构建高效的集成攻击方案；(3) 开展百万级规模的鲁棒性评估。

切入角度：将对抗边际从 logits 空间搬到概率空间——概率空间的分母自然包含所有类别的 logit 信息，开辟更多攻击方向的探索可能。

核心 idea：提出概率边际损失 \(\mathcal{L}_{pm} = p_{max} - p_y = (e^{z_{max}} - e^{z_y}) / \sum_i^N e^{z_i}\)，通过梯度分析证明 PM loss 的梯度是无目标 CE 和有目标 CE 梯度的概率加权组合，天然平衡探索与聚焦。

方法详解¶

整体框架¶

PMA 采用 Margin Decomposition (MD) 攻击的两阶段管线，替换损失函数为概率边际损失。阶段一交替使用 \(p_{max}\) 和 \(-p_y\) 两个分解项进行充分探索（每次 restart 交替选择），阶段二使用完整的 \(p_{max} - p_y\) 进行精细优化。步长采用余弦衰减策略。在此基础上构建两种集成攻击（PMA+AA、PMA+APGD）以平衡效率和强度，同时建立 CC1M 百万级评估数据集。

关键设计¶

概率边际损失 (PM Loss):
- 功能：在概率空间定义对抗边际，统一无目标和有目标攻击的优势
- 核心思路：\(\mathcal{L}_{pm}(z, y) = p_{max} - p_y = (e^{z_{max}} - e^{z_y}) / \sum_i^N e^{z_i}\)。其梯度可分解为 \(\nabla_x \mathcal{L}_{pm} = p_y \nabla_x \mathcal{L}_{ce} + p_{max} \nabla_x \mathcal{L}_{cet}\)，即无目标 CE（多方向探索）和有目标 CE（集中攻击 \(z_{max}\)）的加权组合。权重由 \(p_y\) 和 \(p_{max}\) 动态调节：当 \(p_{max}\) 接近 \(p_y\) 时，其他方向的贡献被正则化抑制，攻击自动聚焦于 \(z_{max}\) 方向
- 设计动机：相比 margin loss 只用两个 logit，PM loss 的分母 \(\sum e^{z_i}\) 包含所有类别信息，计算成本不增加但攻击方向更丰富。理论分析表明 margin loss 等价于 CE + 有目标 CE 的简单加法，而 PM loss 是其自适应加权版本
两阶段攻击策略（PMA 攻击流程）:
- 功能：通过分阶段交替优化 PM loss 的两个分量，充分探索攻击空间
- 核心思路：阶段一（\(k < K^1\)）：奇数次 restart 优化 \(p_{max}\)（鼓励最大非目标类概率上升），偶数次优化 \(-p_y\)（鼓励真实类概率下降），通过 restart 次数的奇偶交替实现方向探索。阶段二（\(K^1 < k < K\)）：使用完整 PM loss \(p_{max} - p_y\)，从阶段一提供的良好初始化出发做精细优化。步长余弦衰减：\(\alpha = \epsilon \cdot (1 + \cos(k/K \cdot \pi))\)
- 设计动机：借鉴 MD 攻击的边际分解思想，但将 logits 空间的分解替换为概率空间的分解。通过阶段一的充分探索为阶段二提供更好的初始扰动
CC1M 百万级评估数据集:
- 功能：构建首个百万规模的白盒对抗鲁棒性评估基准
- 核心思路：从 CC3M 数据集出发，筛除异常值后保留 100 万张图像。用对抗训练的 ImageNet 模型对 CC1M 进行评估，对比在标准 ImageNet-1k 测试集（5万张）上的评估结果。构建 PMA+APGD 和 PMA+AA 两种集成攻击以在效率和强度间取得平衡
- 设计动机：现有评估都在 5 万张测试集上进行，可能不反映真实世界的对抗风险分布。百万级评估能揭示小规模评估遗漏的鲁棒性差距

损失函数 / 训练策略¶

PMA 使用概率边际损失 \(\mathcal{L}_{pm} = p_{max} - p_y\) 作为对抗目标，配合 \(L_\infty\) 约束和 PGD 投影。CIFAR-10/100 扰动预算 \(\epsilon = 8/255\)，ImageNet \(\epsilon = 4/255\)。攻击步数 100，使用随机初始化和余弦步长衰减。

实验关键数据¶

主实验¶

PM loss vs 现有损失函数（PGD 策略，鲁棒准确率 %，越低攻击越强）：

数据集	模型	CE	DLR	Margin	PM (Ours)	降低
CIFAR-10	WRN-70-16	73.60	71.61	71.56	71.34	-0.22
CIFAR-10	WRN-70-16 (Rebuffi)	69.56	67.96	67.79	67.55	-0.24
CIFAR-100	WRN-70-16	48.19	43.93	43.90	43.66	-0.24
ImageNet	Swin-L	59.47	59.80	59.31	57.97	-1.34
ImageNet	ConvNeXt-L	58.42	59.17	58.63	57.24	-1.18

PMA vs 现有个体攻击方法（鲁棒准确率 %）：

数据集	模型	MD	FAB	PMA (Ours)	vs AA
CIFAR-10	WRN-70-16 (Peng)	71.14	72.31	71.10	71.10
CIFAR-100	WRN-70-16	43.53	44.73	43.39	43.40
ImageNet	Swin-L	56.89	60.05	56.49	56.56

消融实验¶

配置	CIFAR-10 Avg.	ImageNet Avg.	说明
PM loss (full)	最佳	最佳	完整概率边际
仅 \(p_{max}\) 项	次之	次之	缺少 \(p_y\) 方向
仅 \(-p_y\) 项	最差	最差	缺少目标聚焦
Margin loss	介于之间	介于之间	logits 空间边际

关键发现¶

PM loss 在所有 29 个模型上一致性地超越 CE、DLR 和 margin loss，优势在类别数越多的数据集上越明显（ImageNet 平均降低 1.22% 鲁棒准确率）
PMA 作为个体攻击已接近甚至匹配 AutoAttack 的性能（集成 4 种方法），同时计算效率高数倍
百万级评估揭示了重要的鲁棒性缺口：在 CC1M 上的评估鲁棒性显著低于 ImageNet-1k 测试集上的结果，说明小规模评估存在高估风险
PM loss 的自适应加权机制是其优势的核心——当 \(p_{max}\) 接近决策边界时自动增强攻击聚焦

亮点与洞察¶

PM loss 的理论分析非常优雅：一个简单公式优雅地统一了无目标和有目标 CE 的双重优势，梯度推导 \(\nabla \mathcal{L}_{pm} = p_y \nabla \mathcal{L}_{ce} + p_{max} \nabla \mathcal{L}_{cet}\) 清晰揭示了其自适应机制
百万级评估首次揭示了小规模测试集可能高估模型鲁棒性，对安全关键应用有重要警示意义
MD 攻击管线 + PM loss 的组合思路值得借鉴——好的攻击策略和好的损失函数是正交的改进维度

局限与展望¶

PM loss 的优势在 CIFAR-10 上较小（平均 ~0.2%），主要优势体现在类别多的数据集上
CC1M 数据集的分布与 ImageNet 不完全一致，鲁棒性差距可能部分来自分布偏移而非鲁棒性评估不足
仅关注 \(L_\infty\) 攻击，未验证在 \(L_2\)、\(L_1\) 等其他范数约束下的效果
未来方向：(1) 将 PM loss 扩展到生成模型的对抗评估；(2) 研究更大规模（千万级）评估的实际影响；(3) 探索 PM loss 在对抗训练中的应用

评分¶

新颖性: ⭐⭐⭐⭐ — PM loss 公式简洁优雅，梯度统一性分析有理论深度
实验充分度: ⭐⭐⭐⭐⭐ — 29 个模型、3 个数据集、个体/集成/百万级评估覆盖全面
写作质量: ⭐⭐⭐⭐ — 梯度分析推导清晰，五种损失函数的对比表格直观
价值: ⭐⭐⭐⭐ — 对对抗鲁棒性评估社区有实际贡献，PM loss 可直接用于更精准的鲁棒性测量