跳转至

Exploring Semantic-constrained Adversarial Example with Instruction Uncertainty Reduction

会议: NeurIPS 2025 arXiv: 2510.22981 代码: 未公开 领域: image_generation 关键词: 对抗样本, 语义约束, 扩散模型, 3D对抗, 迁移攻击

一句话总结

提出多维度指令不确定性缩减框架 InSUR,通过 ResAdv-DDIM 采样器稳定对抗优化方向、上下文编码的攻击场景约束、以及基于 WordNet 的语义抽象评估,首次实现了从自然语言指令生成 2D/3D 语义约束对抗样本(SemanticAE)。

背景与动机

传统对抗样本研究集中在已有数据周围寻找小扰动,而直接从自然语言指令生成对抗样本(SemanticAE)是一个新兴但未被充分探索的方向。给定语义描述,目标是生成语义正确但无法被深度学习模型正确识别的数据。现有方法(AdvDiff、SD-NAE、VENOM 等)存在三方面局限: 1. 指代多样性导致多步扩散模型中语言引导不一致,对抗优化不稳定 2. 描述不完整性导致攻击场景适应性差 3. 语义边界模糊使得评估 SemanticAE 生成器困难

核心问题

如何从不确定的人类自然语言指令出发,生成可迁移、自适应、有效的语义约束对抗样本?

方法详解

问题定义

\[\text{find } x_{\text{adv}} \in \mathcal{S}(\text{Text}) \quad \text{s.t.} \quad \mathcal{M}(x_{\text{adv}}) \in A_{\text{Text}}\]

其中 \(\mathcal{S}(\text{Text})\) 是符合语义约束的数据集合,\(\mathcal{M}\) 是目标模型(黑盒),\(A_{\text{Text}}\) 是与语义不同的错误输出集合。

模块 1:ResAdv-DDIM 采样器(解决指代多样性)

核心思想:在每步去噪时利用 DDIM 的残差快捷预测 \(x_0\) 的粗略估计 \(g_\theta(x_t)\),而非直接用 \(\nabla_{x_0}\mathcal{L}_{\text{ATK}}\) 近似 \(\nabla_{x_t}\mathcal{L}_{\text{ATK}}\)

\[g_\theta(x_t) = \underbrace{f_{\theta,\Delta T_1} \circ f_{\theta,\Delta T_2} \circ \cdots \circ f_{\theta,\Delta T_k}}_{k \text{ 步, } k \ll T/\Delta T}(x_t)\]
\[x_{t-\Delta T} = f_{\theta,\Delta T}\left(\arg\max_{x_t} \mathcal{L}_{\text{ATK}}(\mathcal{M}(g_\theta(x_t)))\right)\]

语义约束通过轨迹偏差上界保证:

\[\|\text{Denoise}_{\text{DDIM}}(x_{t_s-\Delta T}) - \text{Denoise}_{\text{Adv}}(x_{t_s-\Delta T})\|_2 < \epsilon\]

自适应攻击优化使用早停机制:当估计的攻击失败概率低于阈值 \(\xi_1 = 0.1\)\(\xi_2 = 0.01\) 时终止。

模块 2:上下文编码的攻击场景约束

2D 生成:通过 guidance masking 重分配条件/无条件引导:

\[\epsilon_\theta(x_t, t) = (1-M) \cdot \epsilon_{\theta,\text{Unconditional}}(x_t, t) + M \cdot \epsilon_{\theta,\text{Conditional}}(x_t, t, \text{Text})\]

3D 生成(首次实现):将 ResAdv-DDIM 与 Gaussian Splatting 渲染器结合:

\[g_\theta(z_t, \mathbf{pos}, \text{Camera}) = \text{Renderer}_{\text{GS}}(\mathcal{D}_{\text{GS}}(f_{\theta,\Delta T_1} \circ \cdots \circ f_{\theta,\Delta T_k}(z_t, \mathbf{pos}), \mathbf{pos}), \text{Camera})\]

通过 EoT 方法对未知相机位姿进行梯度累积优化。

模块 3:语义抽象评估增强

基于 WordNet 构建层次化标签分类体系,定义抽象层级的逃逸攻击任务:

\[\text{Text} = \text{"Realistic image of [AbstractedLabel], specifically, [label]"}\]
\[A_{\text{Text}} = \{\text{label}_{\text{Adv}} \mid \text{AbstractedLabel} \notin \mathbf{Ancestors}(\text{label}_{\text{Adv}})\}\]

提出相对攻击成功率 \(ASR_{\text{Relative}}\) 和配对语义差异指标 \(\text{SemanticDiff}_\mathcal{S}\),通过同时生成非对抗示例 \(x_{\text{exemplar}}\) 验证语义一致性。

实验关键数据

2D SemanticAE(\(\epsilon = 2.5\),平均 ASR 跨目标模型)

代理模型 方法 Acc.↓ ASR↑ CLIP-Q↑ LPIPS↓
ResNet50 MI-FGSM 33.4% 41.5% 0.548 0.201
ResNet50 SD-NAE 37.1% 47.4% 0.841 0.457
ResNet50 VENOM 34.5% 34.4% 0.795 0.023
ResNet50 InSUR 15.1% 62.0% 0.815 0.031
ViT-B VENOM 30.5% 40.6% 0.796 0.021
ViT-B InSUR 10.9% 69.7% 0.815 0.038
  • 在所有代理+任务设置中,InSUR 平均 ASR 至少提升 1.19×,最小 ASR 提升 1.08×
  • ViT-B 代理模型上 ASR 达到 69.7%,远超 VENOM 的 40.6%

抽象标签逃逸任务

代理模型 方法 Acc.↓ ASR↑ CLIP-Q↑
ResNet50 VENOM 51.0% 34.9% 0.779
ResNet50 InSUR 35.2% 47.9% 0.808
ViT-B VENOM 46.3% 40.3% 0.780
ViT-B InSUR 28.7% 55.4% 0.814

亮点

  • ⭐ 首次实现从自然语言指令的无参考 3D 语义对抗样本生成
  • ⭐ ResAdv-DDIM 通过残差快捷预测解决多步扩散模型中的对抗方向不一致问题
  • ⭐ 基于 WordNet 的评估体系为 SemanticAE 提供了合理的语义边界定义
  • 系统性地将指令不确定性分解为三个维度并逐一突破
  • 在语义保持(低 LPIPS)和攻击效果(高 ASR)之间取得优秀的 Pareto 前沿

局限性 / 可改进方向

  • \(\epsilon\) 参数需手动调节,不同场景可能需要不同值
  • 3D 生成依赖 Trellis 框架,换用其他 3D 生成模型的泛化性未验证
  • 评估指标回避了 FID/IS(担心被对抗攻击),但缺少其他生成质量评估
  • ResAdv-DDIM 的残差步数 \(k \in \{1,2,3,4\}\) 选择策略未深入讨论
  • 生成时间较 VENOM(3.09s)慢(7.26s),虽然仍比 SD-NAE(24.43s)快

与相关工作的对比

方法 生成形式 迁移攻击 3D 支持 语义约束方式
AdvDiff 扰动型 隐式
SD-NAE 生成型 端到端优化
VENOM 生成型 采样过程修改
InSUR 生成型 多维不确定性缩减

启发与关联

  • ResAdv-DDIM 的残差预测思想可借鉴到其他扩散模型控制任务
  • 语义抽象评估方法可推广为通用的语义一致性评测框架
  • Guidance masking 的分区策略可应用于可控图像编辑(背景/前景分离引导)
  • 3D 对抗样本生成对自动驾驶安全评估有直接应用价值

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (SemanticAE 概念化 + 首个 3D 实现)
  • 实验充分度: ⭐⭐⭐⭐ (多代理、多任务、2D/3D 全面实验)
  • 写作质量: ⭐⭐⭐ (内容密集,符号系统复杂,可读性一般)
  • 价值: ⭐⭐⭐⭐ (为 AI 安全评估提供新工具)