Directional Embedding Smoothing for Robust Vision Language Models¶
会议: ICLR2026
arXiv: 2603.15259
代码: 未开源
领域: multimodal_vlm
关键词: VLM safety, jailbreak defense, randomized smoothing, embedding perturbation, directional noise
一句话总结¶
将 RESTA(Randomized Embedding Smoothing and Token Aggregation)防御方法从 LLM 扩展到 VLM,发现方向性嵌入噪声(directional noise)在安全-实用性权衡上显著优于各向同性噪声(isotropic noise),可作为推理时的轻量防御层抵御多模态越狱攻击。
背景与动机¶
- 视觉-语言模型(VLM)在 agentic AI 系统中的广泛部署使其安全性与可靠性成为关键问题
- 尽管经过 safety alignment 训练,VLM 仍然容易受到越狱攻击(jailbreaking attacks),攻击者通过精心构造的文本+图像输入绕过安全对齐
- 已有多种防御策略被提出,包括困惑度过滤、重复一致性检测、辅助 guard 模型、思维链安全推理等,但许多声称强效的防御后来被攻破
- RESTA 方法最初为 LLM 设计(Hase et al., 2024),受 randomized smoothing 启发,通过在嵌入空间注入噪声并多样本投票来增强鲁棒性
- 本文的动机是将 RESTA 自然地扩展到 VLM 场景,并系统评估不同噪声类型的效果
核心问题¶
- RESTA 防御机制能否有效迁移到多模态 VLM 场景?
- 嵌入噪声的方向性(directional vs. isotropic)对防御效果有多大影响?
- 在安全性提升与实用性保持之间,能否找到合理的 tradeoff 工作点?
方法详解¶
RESTA 框架扩展到 VLM¶
- 许多 VLM(如 LLaVA、Gemma)的架构中,视觉内容先经 vision backbone 提取 patch-level 特征,再投影到 LLM 输入嵌入空间,与文本 token 形成统一的嵌入序列 \(\bm{e} = (e_1, \ldots, e_n) \in \mathbb{R}^{d \times *}\)
- 这种共享嵌入空间的架构使 RESTA 可以直接扩展:对统一嵌入序列施加噪声扰动
核心算法¶
- 采样阶段:对输入嵌入序列生成 \(k\) 个加噪副本 \(\tilde{\bm{e}}^i = H_\sigma(\bm{e})\)
- 解码阶段:每步对 \(k\) 个副本分别做 greedy decoding 得到候选 token,然后通过 majority vote 选出最终 token
- 选择性加噪:仅对用户内容对应的 token 嵌入加噪,系统提示和对话格式模板的 token 不受影响
两种噪声类型¶
- Isotropic (Normal) noise:对嵌入向量的每个维度添加独立高斯噪声 \(\mathcal{N}(0, \sigma^2)\)
- Hard directional noise:沿嵌入向量方向添加噪声,即 \(e + \frac{ze}{\|e\|_2}\),其中 \(z \sim \mathcal{N}(0, \sigma^2 d)\),噪声与原始嵌入向量对齐
方向性噪声的直觉¶
- 嵌入向量的语义信息主要编码在其方向上(而非幅度)
- 方向性噪声仅改变向量的模长而不改变方向,从而更好地保留语义内容
- 归一化因子 \(\sqrt{d}\) 用于在两种噪声间对齐有效噪声功率
实验关键数据¶
实验设置¶
- 模型:LLaVA-1.5-7B 和 Gemma-3-4B
- 样本数:\(k=10\) 个扰动嵌入样本
- 安全性评估:JailBreakV-28K benchmark(28K 多模态越狱攻击,14 种攻击策略 × 2000 有害查询)
- 实用性评估:ScienceQA benchmark(4241 道多模态选择题)
- 越狱判定:Llama-Guard-3-8B 自动评估 ASR
核心结果¶
| 模型 | 噪声类型 | ASR (↓) | ScienceQA Acc (↑) | 说明 |
|---|---|---|---|---|
| LLaVA-1.5-7B | 无防御 | 50.13% | 64.07% | baseline |
| LLaVA-1.5-7B | Hard directional | 25.93% | 61.42% | ASR 减半,准确率仅降 2.65% |
| LLaVA-1.5-7B | Isotropic | 较差 | 较差 | tradeoff 接近 trivial 对角线 |
| Gemma-3-4B | Hard directional | 显著降低 | 适度保持 | 同样优于 isotropic |
关键发现¶
- 方向性噪声全面优于各向同性噪声:directional noise 的 safety-utility tradeoff 曲线在两个模型上均显著优于 isotropic noise
- 各向同性噪声接近 trivial tradeoff:isotropic noise 的效果接近甚至不如简单的"随机拒绝"策略(对角线基准)
- 方向性的重要性比此前 Hase et al. (2024) 在 LLM 上观察到的效果更为显著
亮点¶
- 简洁有效的推理时防御:无需重训练模型,仅在推理时加噪+投票,实现轻量级防御
- 方向性噪声的关键洞察:揭示了嵌入空间中方向信息对语义保持的重要性,为后续防御设计提供了有价值的指导原则
- 从 LLM 到 VLM 的自然扩展:利用 VLM 中文本/视觉 token 共享嵌入空间的特性,无缝迁移 RESTA
- 大规模多样化评估:在 28K 攻击样本和 14 种攻击策略上评估,结果具有说服力
局限性 / 可改进方向¶
- 缺乏自适应攻击评估:仅在静态 benchmark 上测试,未评估针对 RESTA 设计的自适应攻击(adaptive attacks),防御是否真正鲁棒尚不确定
- 理论基础薄弱:虽然受 randomized smoothing 启发,但越狱攻击与传统对抗样本有本质区别(不限于小扰动、输出空间复杂),缺乏严格的理论保证
- 模型覆盖有限:仅测试了两个相对较小的模型(7B 和 4B),对更大规模或商用 VLM 的效果未知
- 推理成本:\(k=10\) 的多样本解码意味着每次推理的计算量约为原来的 10 倍
- 仅评估 greedy decoding + majority vote:未探索其他聚合策略(如 logit 平均)的效果
与相关工作的对比¶
| 方法 | 类型 | 适用范围 | 特点 |
|---|---|---|---|
| RESTA (本文) | 推理时嵌入扰动 | VLM/LLM | 轻量级、无需训练、方向性噪声关键 |
| SmoothLLM (Robey et al., 2023) | 输入级字符扰动 | LLM | 在 token 级别随机替换/插入/删除 |
| Llama Guard (Inan et al., 2023) | 辅助 guard 模型 | LLM | 需要额外模型、输入输出过滤 |
| Perplexity filtering (Alon et al., 2023) | 攻击检测 | LLM | 检测异常输入但不修改模型行为 |
| Safety reasoning (Rashid et al., 2025) | 思维链推理 | LLM | 利用 CoT 进行安全推理 |
| Activation intervention (Zou et al., 2025) | 中间层干预 | VLM | 修改模型中间激活值 |
RESTA 的优势在于其实施简单性和不依赖额外模型,但相比其他方法缺乏理论保证和自适应攻击验证。
启发与关联¶
- 嵌入方向 vs. 幅度:方向性噪声有效而各向同性噪声无效的发现,强化了"嵌入向量方向编码语义"的假说,对嵌入空间的理解和利用有指导意义
- 越狱的脆弱性假说:文中推测越狱攻击可能依赖于激活某些"窄路径"的脆弱性,因此可被噪声扰动破坏。这一假说若能被理论化,将对理解 VLM 安全性有重要意义
- 多层防御思想:作者强调 RESTA 至多是整体安全框架中的一层,这种务实态度值得借鉴
- 与 agentic AI 安全的关联:随着 VLM 被集成到自主代理系统中,推理时防御的重要性将持续增长
评分¶
- 新颖性: ⭐⭐⭐ (RESTA 到 VLM 的扩展较直接,但方向性噪声的发现有价值)
- 实验充分度: ⭐⭐⭐ (大规模 benchmark 但缺乏自适应攻击和更多模型)
- 写作质量: ⭐⭐⭐⭐ (论述清晰,对局限性的讨论坦诚且深入)
- 价值: ⭐⭐⭐ (实用的推理时防御思路,方向性噪声的洞察对领域有贡献)