Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks¶

会议: ICCV 2025
arXiv: 2504.01308
代码: https://github.com/JarvisUSTC/DiffPure-RobustVLM
领域: 多模态VLM
关键词: VLM安全, 高斯噪声, 对抗攻击防御, 扩散模型净化, 安全微调

一句话总结¶

发现主流VLM普遍缺乏高斯噪声鲁棒性，提出Robust-VLGuard安全数据集（含图文对齐/不对齐场景）配合噪声增强微调提升高斯噪声鲁棒性，再结合DiffPure将对抗噪声转化为高斯噪声，构建DiffPure-VLM通用防御框架，有效抵御多种强度的对抗攻击。

研究背景与动机¶

VLM通过整合视觉和文本信息扩展了LLM的能力，但相比纯文本LLM面临更严峻的安全挑战：

视觉模态引入新攻击面：传统基于优化的对抗攻击（PGD等）可以注入不可感知的扰动来越狱VLM

关键盲点——高斯噪声脆弱性：作者发现一个被忽视的根本问题——主流VLM（InternVL2、LLaVA、MiniGPT-4）在训练中缺少噪声增强，导致即使简单的高斯噪声就能同时降低模型的有用性和安全性

具体表现： - 有用性退化：InternVL2在MM-Vet上的表现从59.9%降到54.4%（加高斯噪声后） - 安全对齐崩塌：InternVL2在RealToxicityPrompts上的攻击成功率从50.5%升到57.2%（仅加σ=0.1的高斯噪声）

核心矛盾：现有防御方法（如VLGuard）仅关注内容层面的安全数据，忽略了噪声扰动本身就能破坏安全对齐的事实。DiffPure虽能净化对抗噪声但不完全消除，而是将其转化为高斯分布——这恰好可以与噪声增强微调形成互补。

核心idea：两步防御——先通过噪声增强安全微调让VLM对高斯噪声免疫，再利用DiffPure将任意对抗扰动转化为高斯类噪声，从而实现对广谱攻击的防御。

方法详解¶

整体框架¶

DiffPure-VLM由两个组件串联构成： 1. 前端：DiffPure扩散模型预处理（将对抗噪声→高斯类噪声） 2. 后端：经Robust-VLGuard噪声增强微调的鲁棒VLM（对高斯噪声免疫）

关键设计¶

Robust-VLGuard数据集:
- 功能：构建包含三类数据的多模态安全微调数据集
- 数据构成：
  - 通用指令数据（4,467条）：涵盖QA、知识、数学、OCR、空间推理等，使用GPT-4V优化标注答案（原始标注过于简短影响学习效果）
  - 图文对齐安全数据（1,000条）：来自VLGuard，图像内容与安全相关文本对齐
  - 图文不对齐安全数据（1,000条）：图像与安全文本无关的场景——这是关键创新点
- 设计动机：微调VLM进行视觉任务本身就会破坏预训练LLM的安全对齐，且对抗攻击注入的噪声与文本提示无关，因此必须训练模型处理图文不匹配的场景
噪声增强安全微调:
- 功能：在Robust-VLGuard上用LoRA微调视觉编码器，训练时以70%概率对图像添加随机标准差（σ ∈ [0.01, 0.15]）的高斯噪声
- 核心思路：仅微调视觉编码器的LoRA参数，训练3个epoch，单卡A100约3小时
- 设计动机：通过让模型在带噪图像上学习正确的安全响应，使其对噪声扰动具备内在鲁棒性
- 关键消融：通用/安全数据比例4:2最优，epoch增加对有用性影响很小但持续降低攻击成功率
DiffPure的分布转移特性:
- 功能：利用扩散模型的前向-逆向过程净化对抗图像
- 核心发现：DiffPure在适当时间步 \(t^* \in [50, 150]\) 下，不是完全去噪，而是将对抗噪声的分布从非高斯转移为高斯类分布
- 量化验证：
  - 峰度（Kurtosis）：高斯分布为3，DiffPure处理后的残差噪声峰度落入[3,6]区间
  - Q-Q偏差：DiffPure处理后的残差与理论高斯分布的RMSE ≤ 0.01
- 设计动机：直接对VLM应用DiffPure无法降低攻击成功率（因模型本身对高斯噪声也不鲁棒），但配合噪声增强微调后的VLM则效果显著

损失函数 / 训练策略¶

LoRA微调视觉编码器，冻结其他参数
标准指令微调损失（下一token预测）
DiffPure使用无条件扩散模型，时间步 \(t^*\) 选择50或150

实验关键数据¶

主实验¶

模型	配置	MM-Vet (↑)	攻击成功率 (↓)	说明
InternVL2-8B	原始	59.9%	50.5%	基线
+VLGuard	微调	42.9% (-17.0)	27.7%	有用性严重退化
+RobustVLGuard	微调	56.2% (-3.7)	29.9%	安全性相当，有用性远优
LLaVA-v1.5-7B	原始	33.0%	57.7%	—
+RobustVLGuard	微调	30.3% (-2.7)	43.6%	安全性大幅改善
MiniGPT-4-13B	原始	26.7%	34.8%	—
+RobustVLGuard	微调	26.9% (+0.2)	16.0%	有用性不降反升

消融实验 / DiffPure-VLM防御效果¶

图像类型 (ε=32/255)	InternVL2 攻击率	LLaVA 攻击率	MiniGPT-4 攻击率
干净图像	29.9%	43.6%	16.0%
高斯噪声图像	34.5%	42.3%	16.5%
对抗图像	70.6%	62.5%	53.7%
+DiffPure-VLM (t*=50)	33.4%	43.9%	13.6%
+DiffPure-VLM (t*=150)	32.8%	42.5%	11.9%

防御方法 (LLaVA, ε=32/255)	攻击成功率	说明
无防御 (VLGuard)	70.4%	基线
JailGuard + VLGuard	52.1%	检测型防御
DiffPure + VLGuard	51.1%	净化型防御
JailGuard + RobustVLGuard	48.9%	—
DiffPure + RobustVLGuard	43.9%	最优组合

关键发现¶

高斯噪声是被严重低估的威胁：仅σ=0.1的随机噪声就能让InternVL2的攻击成功率提升6.7个百分点
VLGuard的"过度防御"问题：InternVL2-VLGuard的MM-Vet从59.9%骤降至42.9%，说明盲目增加安全数据会大幅牺牲有用性
图文不对齐数据的重要性：VLGuard仅含对齐安全数据，在RealToxicityPrompts（图文不对齐的攻击）上改善有限
DiffPure-VLM的防御几乎完美恢复基线：对抗攻击后的攻击率可降至接近干净图像水平（如MiniGPT-4的13.6% vs 16.0%）
DiffPure的关键不是"去噪"而是"转噪"——将非高斯对抗噪声转为高斯噪声

亮点与洞察¶

发现+解决并举：首次系统证明主流VLM对高斯噪声的脆弱性，然后提出完整的防御方案
分布转移的巧妙利用：DiffPure不完全消除噪声反而是优势——将未知分布的对抗噪声统一转化为已知的高斯分布，配合针对性微调实现"攻防闭环"
数据设计的匠心：图文不对齐安全数据填补了VLGuard的盲区，少量高质量数据即可显著提升鲁棒性
实用性强：单卡A100训练3小时，DiffPure推理开销低于JailGuard（无需多次模型推理）

局限与展望¶

仅在三个VLM上验证，未测试更新的模型（如Qwen2-VL、LLaMA-3.2-Vision）——附录有初步结果但不够深入
噪声增强仅应用于微调阶段，若能在预训练中集成效果可能更好
DiffPure的时间步 \(t^*\) 需要根据攻击强度选择，是否可以设计自适应的时间步选择机制？
安全数据集规模较小（总计6,467条），扩展到更多任务和更多安全类别可能进一步提升效果

评分¶

新颖性: ⭐⭐⭐⭐ 高斯噪声脆弱性的发现新颖，DiffPure-VLM的组合设计巧妙
实验充分度: ⭐⭐⭐⭐ 三个基础模型、多攻击强度、详细消融，但VLM种类可更多
写作质量: ⭐⭐⭐⭐ 逻辑清晰，从发现问题到解决问题层层推进
价值: ⭐⭐⭐⭐ 揭示了VLM安全的重要盲区，防御框架实用且可推广