跳转至

Directional Embedding Smoothing for Robust Vision Language Models

会议: ICLR2026
arXiv: 2603.15259
代码: 未开源
领域: multimodal_vlm
关键词: VLM safety, jailbreak defense, randomized smoothing, embedding perturbation, directional noise

一句话总结

将 RESTA(Randomized Embedding Smoothing and Token Aggregation)防御方法从 LLM 扩展到 VLM,发现方向性嵌入噪声(directional noise)在安全-实用性权衡上显著优于各向同性噪声(isotropic noise),可作为推理时的轻量防御层抵御多模态越狱攻击。

背景与动机

  • 视觉-语言模型(VLM)在 agentic AI 系统中的广泛部署使其安全性与可靠性成为关键问题
  • 尽管经过 safety alignment 训练,VLM 仍然容易受到越狱攻击(jailbreaking attacks),攻击者通过精心构造的文本+图像输入绕过安全对齐
  • 已有多种防御策略被提出,包括困惑度过滤、重复一致性检测、辅助 guard 模型、思维链安全推理等,但许多声称强效的防御后来被攻破
  • RESTA 方法最初为 LLM 设计(Hase et al., 2024),受 randomized smoothing 启发,通过在嵌入空间注入噪声并多样本投票来增强鲁棒性
  • 本文的动机是将 RESTA 自然地扩展到 VLM 场景,并系统评估不同噪声类型的效果

核心问题

  1. RESTA 防御机制能否有效迁移到多模态 VLM 场景?
  2. 嵌入噪声的方向性(directional vs. isotropic)对防御效果有多大影响?
  3. 在安全性提升与实用性保持之间,能否找到合理的 tradeoff 工作点?

方法详解

RESTA 框架扩展到 VLM

  • 许多 VLM(如 LLaVA、Gemma)的架构中,视觉内容先经 vision backbone 提取 patch-level 特征,再投影到 LLM 输入嵌入空间,与文本 token 形成统一的嵌入序列 \(\bm{e} = (e_1, \ldots, e_n) \in \mathbb{R}^{d \times *}\)
  • 这种共享嵌入空间的架构使 RESTA 可以直接扩展:对统一嵌入序列施加噪声扰动

核心算法

  • 采样阶段:对输入嵌入序列生成 \(k\) 个加噪副本 \(\tilde{\bm{e}}^i = H_\sigma(\bm{e})\)
  • 解码阶段:每步对 \(k\) 个副本分别做 greedy decoding 得到候选 token,然后通过 majority vote 选出最终 token
  • 选择性加噪:仅对用户内容对应的 token 嵌入加噪,系统提示和对话格式模板的 token 不受影响

两种噪声类型

  1. Isotropic (Normal) noise:对嵌入向量的每个维度添加独立高斯噪声 \(\mathcal{N}(0, \sigma^2)\)
  2. Hard directional noise:沿嵌入向量方向添加噪声,即 \(e + \frac{ze}{\|e\|_2}\),其中 \(z \sim \mathcal{N}(0, \sigma^2 d)\),噪声与原始嵌入向量对齐

方向性噪声的直觉

  • 嵌入向量的语义信息主要编码在其方向上(而非幅度)
  • 方向性噪声仅改变向量的模长而不改变方向,从而更好地保留语义内容
  • 归一化因子 \(\sqrt{d}\) 用于在两种噪声间对齐有效噪声功率

实验关键数据

实验设置

  • 模型:LLaVA-1.5-7B 和 Gemma-3-4B
  • 样本数\(k=10\) 个扰动嵌入样本
  • 安全性评估:JailBreakV-28K benchmark(28K 多模态越狱攻击,14 种攻击策略 × 2000 有害查询)
  • 实用性评估:ScienceQA benchmark(4241 道多模态选择题)
  • 越狱判定:Llama-Guard-3-8B 自动评估 ASR

核心结果

模型 噪声类型 ASR (↓) ScienceQA Acc (↑) 说明
LLaVA-1.5-7B 无防御 50.13% 64.07% baseline
LLaVA-1.5-7B Hard directional 25.93% 61.42% ASR 减半,准确率仅降 2.65%
LLaVA-1.5-7B Isotropic 较差 较差 tradeoff 接近 trivial 对角线
Gemma-3-4B Hard directional 显著降低 适度保持 同样优于 isotropic

关键发现

  • 方向性噪声全面优于各向同性噪声:directional noise 的 safety-utility tradeoff 曲线在两个模型上均显著优于 isotropic noise
  • 各向同性噪声接近 trivial tradeoff:isotropic noise 的效果接近甚至不如简单的"随机拒绝"策略(对角线基准)
  • 方向性的重要性比此前 Hase et al. (2024) 在 LLM 上观察到的效果更为显著

亮点

  1. 简洁有效的推理时防御:无需重训练模型,仅在推理时加噪+投票,实现轻量级防御
  2. 方向性噪声的关键洞察:揭示了嵌入空间中方向信息对语义保持的重要性,为后续防御设计提供了有价值的指导原则
  3. 从 LLM 到 VLM 的自然扩展:利用 VLM 中文本/视觉 token 共享嵌入空间的特性,无缝迁移 RESTA
  4. 大规模多样化评估:在 28K 攻击样本和 14 种攻击策略上评估,结果具有说服力

局限性 / 可改进方向

  1. 缺乏自适应攻击评估:仅在静态 benchmark 上测试,未评估针对 RESTA 设计的自适应攻击(adaptive attacks),防御是否真正鲁棒尚不确定
  2. 理论基础薄弱:虽然受 randomized smoothing 启发,但越狱攻击与传统对抗样本有本质区别(不限于小扰动、输出空间复杂),缺乏严格的理论保证
  3. 模型覆盖有限:仅测试了两个相对较小的模型(7B 和 4B),对更大规模或商用 VLM 的效果未知
  4. 推理成本\(k=10\) 的多样本解码意味着每次推理的计算量约为原来的 10 倍
  5. 仅评估 greedy decoding + majority vote:未探索其他聚合策略(如 logit 平均)的效果

与相关工作的对比

方法 类型 适用范围 特点
RESTA (本文) 推理时嵌入扰动 VLM/LLM 轻量级、无需训练、方向性噪声关键
SmoothLLM (Robey et al., 2023) 输入级字符扰动 LLM 在 token 级别随机替换/插入/删除
Llama Guard (Inan et al., 2023) 辅助 guard 模型 LLM 需要额外模型、输入输出过滤
Perplexity filtering (Alon et al., 2023) 攻击检测 LLM 检测异常输入但不修改模型行为
Safety reasoning (Rashid et al., 2025) 思维链推理 LLM 利用 CoT 进行安全推理
Activation intervention (Zou et al., 2025) 中间层干预 VLM 修改模型中间激活值

RESTA 的优势在于其实施简单性和不依赖额外模型,但相比其他方法缺乏理论保证和自适应攻击验证。

启发与关联

  • 嵌入方向 vs. 幅度:方向性噪声有效而各向同性噪声无效的发现,强化了"嵌入向量方向编码语义"的假说,对嵌入空间的理解和利用有指导意义
  • 越狱的脆弱性假说:文中推测越狱攻击可能依赖于激活某些"窄路径"的脆弱性,因此可被噪声扰动破坏。这一假说若能被理论化,将对理解 VLM 安全性有重要意义
  • 多层防御思想:作者强调 RESTA 至多是整体安全框架中的一层,这种务实态度值得借鉴
  • 与 agentic AI 安全的关联:随着 VLM 被集成到自主代理系统中,推理时防御的重要性将持续增长

评分

  • 新颖性: ⭐⭐⭐ (RESTA 到 VLM 的扩展较直接,但方向性噪声的发现有价值)
  • 实验充分度: ⭐⭐⭐ (大规模 benchmark 但缺乏自适应攻击和更多模型)
  • 写作质量: ⭐⭐⭐⭐ (论述清晰,对局限性的讨论坦诚且深入)
  • 价值: ⭐⭐⭐ (实用的推理时防御思路,方向性噪声的洞察对领域有贡献)