Certified but Fooled! Breaking Certified Defences with Ghost Certificates¶

会议: AAAI 2026
arXiv: 2511.14003
代码: github.com/ghostcert
领域: 其他
关键词: 对抗攻击, 认证防御, 随机平滑, 证书伪造, 区域扰动

一句话总结¶

提出 GhostCert，一种基于显著性区域的对抗攻击方法，能在保持扰动不可感知的同时误导分类器并伪造大半径的认证证书（ghost certificates），在 ImageNet 上对包括 DensePure 在内的 SOTA 认证防御取得显著优于 Shadow Attack 的攻击成功率和更大的伪造认证半径。

研究背景与动机¶

问题定义¶

认证防御（如 Randomized Smoothing）承诺提供可证明的鲁棒性保证：在 \(\ell_2\) 扰动球内，平滑分类器的预测保持不变。但这些保证的实际安全性有多可靠？

证书伪造（Certificate Spoofing）：攻击者不仅要误导分类器做出错误预测，还要操纵认证过程为错误输入颁发高置信度的鲁棒性证书。

现有攻击的不足¶

Shadow Attack（ICLR 2020）是唯一针对认证防御的先前工作，但存在关键缺陷： 1. 使用大幅度全局扰动将输入移到远离决策边界的区域 2. 依赖总变差（TV）、颜色通道均值等正则化来维持"自然"外观，形成复杂的多目标优化 3. 对集成模型效果大幅下降（ASR 仅约 40%） 4. 生成的对抗样本视觉上不够自然（\(\|\delta\|_2\) 通常 >10）

核心动机¶

大幅度扰动并非必要——通过将扰动约束在语义相关的显著性区域，可以用更小的扰动实现更高的攻击成功率和更大的伪造证书半径。

方法详解¶

整体框架¶

GhostCert 的流程分三步： 1. 区域提案生成：使用 SAM（Segment Anything Model）生成语义分割掩码 2. 显著性区域选择：结合 GradCAM/Attention 的显著性信息选择 top-k 区域 3. 约束扰动优化：在选定区域内使用 PGD 优化对抗扰动

关键设计¶

1. 显著性区域掩码（Salient-Region Mask）¶

将 GradCAM 的梯度显著性与 SAM 的语义分割边界结合：

对每个 SAM 分割掩码 \(M_i\)，计算与显著性图 \(\mathcal{S}\) 的重叠分数：

\[\text{score}(M_i) = \frac{\sum_{x,y} M_i(x,y) \cdot \mathcal{S}(x,y)}{\sum_{x,y} M_i(x,y) + \sum_{x,y} \mathcal{S}(x,y)}\]

选择得分最高的 \(k=5\) 个掩码（包括未被任何掩码覆盖的区域 \(U\)），合并为最终掩码：\(m = \sum_{M \in \mathcal{T}} M\)

设计动机：GradCAM 的显著性图产生无定形区域，忽略自然图像边界，导致不自然的伪影。SAM 的分割掩码提供语义连贯的边界。两者结合确保扰动在语义上有意义且视觉上自然。

2. 约束扰动优化¶

非定向攻击优化目标：

\[\max_\delta \sum_{i=1}^N L(f_\theta(x + \Delta_i + \delta \odot m), y) \quad \text{s.t.} \|\delta \odot m\|_2 \leq \epsilon\]

其中 \(\Delta_i\) 是高斯噪声（标准差 \(\sigma\)），\(\odot\) 为逐元素乘法，\(m\) 是选定区域掩码。

定向攻击则将损失改为最大化目标类别的概率。

使用 PGD 进行梯度上升：\(\delta \leftarrow \delta + \lambda \cdot \frac{g}{\|g\|_2}\)，然后投影：\(\delta \leftarrow (\epsilon \frac{\delta}{\|\delta\|_2}) \odot m\)。

3. 适配不同防御方法¶

针对三种认证防御分别调整优化目标：

Randomized Smoothing（RS）：\(\max_\delta \sum_i L(f(x + \epsilon_i + \delta), y)\)
Smoothed Ensemble：\(\max_\delta \sum_i L(\bar{f}(x + \epsilon_i + \delta), y)\)
DensePure（去噪平滑）：\(\max_\delta \sum_i L(f(D_\theta(x + \epsilon_i + \delta)), y)\)

对 Transformer 模型使用 Attention maps 替代 GradCAM。

损失函数 / 训练策略¶

使用交叉熵损失
PGD 步长 \(\lambda = 0.0001\)
每次攻击使用 \(N=1000\) 个 Monte Carlo 样本估计平滑概率
扰动预算 \(\epsilon \in \{2, 4, 6, 8, 10\}\)
Randomized Smoothing 的失败概率 \(\alpha = 0.001\)

实验关键数据¶

主实验¶

非定向攻击成功率（ASR）对比：

防御方法	\(\sigma\)	\(\epsilon\)	GhostCert	Shadow (bounded)	Shadow (原始)
Single RS (ResNet50)	0.25	10	~98%	~60%	~65%
Ensemble RS	0.25	10	~100%	~40%	~40%
Ensemble RS	0.5	10	~85%	~35%	~30%
DensePure	0.25	10	~100%	~50%	~55%
DensePure	0.5	10	~55%	~35%	~40%

伪造认证半径：GhostCert 一致性地产生更大或可比的伪造认证半径，且通常超过源图像的真实认证半径（"strongly certified"）。

消融实验¶

配置	ASR（非定向，\(\epsilon\)=10）	ASR（定向，\(\epsilon\)=10）	说明
GhostCert（完整，k=5）	90%	30%	完整方法
随机像素掩码（50%）	90%	5%	定向攻击差很多
随机区域提案（k=5，无显著性）	45%	0%	显著性选择关键
k=3	90%	15%	区域数不足
k=7	90%	35%	与 k=5 相近

关键发现¶

GhostCert 在集成防御上的优势最为显著：Shadow Attack 在集成模型上 ASR 从 ~65% 骤降至 ~40%，而 GhostCert 保持 ~100%
更低扰动 + 更大伪造半径：GhostCert 在 \(\|\delta\|_2=4\) 时即可达到 Shadow Attack 在 \(\|\delta\|_2=13\) 时的效果
人类用户研究：在 Amazon Mechanical Turk 上，GhostCert 生成的图像在所有扰动水平下都被认为更自然（74% at \(\epsilon\)=2, 62% at \(\epsilon\)=10）
DoS 攻击：当 ASR 较低时，GhostCert 的输入更频繁地导致认证方法弃权（abstain），形成拒绝服务攻击
重要声明：攻击不"invalidate"证书——证书关于有界范数内输入不是对抗样本的断言仍然正确。攻击揭示的是认证框架的实用安全性边界

亮点与洞察¶

约束优化 vs 多目标优化的范式转变：Shadow Attack 将语义约束作为正则项加入损失（多目标），GhostCert 通过区域掩码将其转为约束（缩小搜索空间），更高效
SAM + GradCAM 的组合是关键创新：GradCAM 告诉"哪里重要"，SAM 告诉"如何尊重边界"
新的威胁维度：证书伪造不仅是分类错误，还产生"虚假安全感"——这对安全关键应用（自动驾驶、医疗）尤为危险
揭示了认证防御的一个根本局限：\(\ell_2\) 范数约束的认证在语义空间中可能不够

局限与展望¶

白盒威胁模型：需要完全访问模型参数，现实中攻击者未必有此权限
对 DensePure 在 \(\sigma=0.5\) 时的 ASR 显著下降，说明更强的去噪器仍具防御潜力
每次攻击需 1000 个 Monte Carlo 样本，计算成本较高
用户研究规模有限（~50 人），可能存在偏差
未探索对其他认证方法（如确定性认证）的攻击效果
SAM 模型本身的计算开销未被纳入考量

评分¶

新颖性: ⭐⭐⭐⭐ （SAM+GradCAM 区域选择思路新颖，证书伪造场景重要）
实验充分度: ⭐⭐⭐⭐⭐ （三种防御 × 三种攻击 × 多个σ/ε + 定向/非定向 + 用户研究 + 消融）
写作质量: ⭐⭐⭐⭐ （结构清晰，实验展示直观）
价值: ⭐⭐⭐⭐ （对认证防御社区是重要的安全警示，推动了对认证可靠性的反思）