Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks¶
会议: ICCV 2025
arXiv: 2504.01308
代码: https://github.com/JarvisUSTC/DiffPure-RobustVLM
领域: 多模态VLM
关键词: VLM安全, 高斯噪声, 对抗攻击防御, 扩散模型净化, 安全微调
一句话总结¶
发现主流VLM普遍缺乏高斯噪声鲁棒性,提出Robust-VLGuard安全数据集(含图文对齐/不对齐场景)配合噪声增强微调提升高斯噪声鲁棒性,再结合DiffPure将对抗噪声转化为高斯噪声,构建DiffPure-VLM通用防御框架,有效抵御多种强度的对抗攻击。
研究背景与动机¶
VLM通过整合视觉和文本信息扩展了LLM的能力,但相比纯文本LLM面临更严峻的安全挑战:
视觉模态引入新攻击面:传统基于优化的对抗攻击(PGD等)可以注入不可感知的扰动来越狱VLM
关键盲点——高斯噪声脆弱性:作者发现一个被忽视的根本问题——主流VLM(InternVL2、LLaVA、MiniGPT-4)在训练中缺少噪声增强,导致即使简单的高斯噪声就能同时降低模型的有用性和安全性
具体表现: - 有用性退化:InternVL2在MM-Vet上的表现从59.9%降到54.4%(加高斯噪声后) - 安全对齐崩塌:InternVL2在RealToxicityPrompts上的攻击成功率从50.5%升到57.2%(仅加σ=0.1的高斯噪声)
核心矛盾:现有防御方法(如VLGuard)仅关注内容层面的安全数据,忽略了噪声扰动本身就能破坏安全对齐的事实。DiffPure虽能净化对抗噪声但不完全消除,而是将其转化为高斯分布——这恰好可以与噪声增强微调形成互补。
核心idea:两步防御——先通过噪声增强安全微调让VLM对高斯噪声免疫,再利用DiffPure将任意对抗扰动转化为高斯类噪声,从而实现对广谱攻击的防御。
方法详解¶
整体框架¶
DiffPure-VLM由两个组件串联构成: 1. 前端:DiffPure扩散模型预处理(将对抗噪声→高斯类噪声) 2. 后端:经Robust-VLGuard噪声增强微调的鲁棒VLM(对高斯噪声免疫)
关键设计¶
-
Robust-VLGuard数据集:
- 功能:构建包含三类数据的多模态安全微调数据集
- 数据构成:
- 通用指令数据(4,467条):涵盖QA、知识、数学、OCR、空间推理等,使用GPT-4V优化标注答案(原始标注过于简短影响学习效果)
- 图文对齐安全数据(1,000条):来自VLGuard,图像内容与安全相关文本对齐
- 图文不对齐安全数据(1,000条):图像与安全文本无关的场景——这是关键创新点
- 设计动机:微调VLM进行视觉任务本身就会破坏预训练LLM的安全对齐,且对抗攻击注入的噪声与文本提示无关,因此必须训练模型处理图文不匹配的场景
-
噪声增强安全微调:
- 功能:在Robust-VLGuard上用LoRA微调视觉编码器,训练时以70%概率对图像添加随机标准差(σ ∈ [0.01, 0.15])的高斯噪声
- 核心思路:仅微调视觉编码器的LoRA参数,训练3个epoch,单卡A100约3小时
- 设计动机:通过让模型在带噪图像上学习正确的安全响应,使其对噪声扰动具备内在鲁棒性
- 关键消融:通用/安全数据比例4:2最优,epoch增加对有用性影响很小但持续降低攻击成功率
-
DiffPure的分布转移特性:
- 功能:利用扩散模型的前向-逆向过程净化对抗图像
- 核心发现:DiffPure在适当时间步 \(t^* \in [50, 150]\) 下,不是完全去噪,而是将对抗噪声的分布从非高斯转移为高斯类分布
- 量化验证:
- 峰度(Kurtosis):高斯分布为3,DiffPure处理后的残差噪声峰度落入[3,6]区间
- Q-Q偏差:DiffPure处理后的残差与理论高斯分布的RMSE ≤ 0.01
- 设计动机:直接对VLM应用DiffPure无法降低攻击成功率(因模型本身对高斯噪声也不鲁棒),但配合噪声增强微调后的VLM则效果显著
损失函数 / 训练策略¶
- LoRA微调视觉编码器,冻结其他参数
- 标准指令微调损失(下一token预测)
- DiffPure使用无条件扩散模型,时间步 \(t^*\) 选择50或150
实验关键数据¶
主实验¶
| 模型 | 配置 | MM-Vet (↑) | 攻击成功率 (↓) | 说明 |
|---|---|---|---|---|
| InternVL2-8B | 原始 | 59.9% | 50.5% | 基线 |
| +VLGuard | 微调 | 42.9% (-17.0) | 27.7% | 有用性严重退化 |
| +RobustVLGuard | 微调 | 56.2% (-3.7) | 29.9% | 安全性相当,有用性远优 |
| LLaVA-v1.5-7B | 原始 | 33.0% | 57.7% | — |
| +RobustVLGuard | 微调 | 30.3% (-2.7) | 43.6% | 安全性大幅改善 |
| MiniGPT-4-13B | 原始 | 26.7% | 34.8% | — |
| +RobustVLGuard | 微调 | 26.9% (+0.2) | 16.0% | 有用性不降反升 |
消融实验 / DiffPure-VLM防御效果¶
| 图像类型 (ε=32/255) | InternVL2 攻击率 | LLaVA 攻击率 | MiniGPT-4 攻击率 |
|---|---|---|---|
| 干净图像 | 29.9% | 43.6% | 16.0% |
| 高斯噪声图像 | 34.5% | 42.3% | 16.5% |
| 对抗图像 | 70.6% | 62.5% | 53.7% |
| +DiffPure-VLM (t*=50) | 33.4% | 43.9% | 13.6% |
| +DiffPure-VLM (t*=150) | 32.8% | 42.5% | 11.9% |
| 防御方法 (LLaVA, ε=32/255) | 攻击成功率 | 说明 |
|---|---|---|
| 无防御 (VLGuard) | 70.4% | 基线 |
| JailGuard + VLGuard | 52.1% | 检测型防御 |
| DiffPure + VLGuard | 51.1% | 净化型防御 |
| JailGuard + RobustVLGuard | 48.9% | — |
| DiffPure + RobustVLGuard | 43.9% | 最优组合 |
关键发现¶
- 高斯噪声是被严重低估的威胁:仅σ=0.1的随机噪声就能让InternVL2的攻击成功率提升6.7个百分点
- VLGuard的"过度防御"问题:InternVL2-VLGuard的MM-Vet从59.9%骤降至42.9%,说明盲目增加安全数据会大幅牺牲有用性
- 图文不对齐数据的重要性:VLGuard仅含对齐安全数据,在RealToxicityPrompts(图文不对齐的攻击)上改善有限
- DiffPure-VLM的防御几乎完美恢复基线:对抗攻击后的攻击率可降至接近干净图像水平(如MiniGPT-4的13.6% vs 16.0%)
- DiffPure的关键不是"去噪"而是"转噪"——将非高斯对抗噪声转为高斯噪声
亮点与洞察¶
- 发现+解决并举:首次系统证明主流VLM对高斯噪声的脆弱性,然后提出完整的防御方案
- 分布转移的巧妙利用:DiffPure不完全消除噪声反而是优势——将未知分布的对抗噪声统一转化为已知的高斯分布,配合针对性微调实现"攻防闭环"
- 数据设计的匠心:图文不对齐安全数据填补了VLGuard的盲区,少量高质量数据即可显著提升鲁棒性
- 实用性强:单卡A100训练3小时,DiffPure推理开销低于JailGuard(无需多次模型推理)
局限与展望¶
- 仅在三个VLM上验证,未测试更新的模型(如Qwen2-VL、LLaMA-3.2-Vision)——附录有初步结果但不够深入
- 噪声增强仅应用于微调阶段,若能在预训练中集成效果可能更好
- DiffPure的时间步 \(t^*\) 需要根据攻击强度选择,是否可以设计自适应的时间步选择机制?
- 安全数据集规模较小(总计6,467条),扩展到更多任务和更多安全类别可能进一步提升效果
相关工作与启发¶
- 与VLGuard的关系:Robust-VLGuard在其基础上增加了图文不对齐场景和噪声增强训练,本质上是将鲁棒性维度纳入安全考量
- 与DiffPure原始工作的关系:原始DiffPure针对图像分类器,本文将其适配到VLM场景,并发现其"分布转移"而非"去噪"的独特性质
- 启发:VLM的安全问题不仅是内容层面的,信号层面的噪声也可以破坏安全对齐——这启示我们安全训练应考虑更广泛的攻击面
评分¶
- 新颖性: ⭐⭐⭐⭐ 高斯噪声脆弱性的发现新颖,DiffPure-VLM的组合设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 三个基础模型、多攻击强度、详细消融,但VLM种类可更多
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,从发现问题到解决问题层层推进
- 价值: ⭐⭐⭐⭐ 揭示了VLM安全的重要盲区,防御框架实用且可推广
相关论文¶
- [ICCV 2025] One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models
- [CVPR 2025] NLPrompt: Noise-Label Prompt Learning for Vision-Language Models
- [CVPR 2026] LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models
- [ICCV 2025] Adaptive Prompt Learning via Gaussian Outlier Synthesis for Out-of-distribution Detection
- [AAAI 2026] Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models