SDEval: Safety Dynamic Evaluation for Multimodal Large Language Models¶
会议: AAAI 2026
arXiv: 2508.06142
代码: SDEval
领域: 多模态大语言模型安全评估
关键词: MLLM安全, 动态评估, 数据泄露, 越狱攻击, 安全基准
一句话总结¶
提出首个 MLLM 安全动态评估框架 SDEval,通过文本动态(6种策略)、图像动态(2类策略)和跨模态动态(4种策略)从原始安全基准生成可控复杂度的变体样本,在 MLLMGuard 和 VLSBench 上使 InternVL-3-78B 安全率下降近 10%,有效缓解数据泄露并暴露模型安全漏洞。
研究背景与动机¶
领域现状:MLLM 在多模态理解方面取得巨大进展,但也面临生成有害内容的风险。社区已构建了多个安全评估基准(MLLMGuard、VLSBench、MMSafetyBench 等),用于评估模型抵御有害输出的能力。
现有痛点: (1) 数据泄露严重——大多数安全基准整合自开源数据集,极可能已被包含在 MLLM 训练集中,导致评估结果失真; (2) 静态数据集复杂度固定——手工构建的基准无法匹配 MLLM 的快速进步,难以精准评估模型性能上限; (3) 攻击方法持续演进——新型越狱攻击不断出现,固定基准无法及时覆盖新风险。
核心矛盾:已有动态评估方法(DyVal 等)仅针对模型能力评估,不适用于开放式回答的安全评估场景,且忽视了能力-安全平衡问题。
本文切入角度:设计一个通用、灵活的安全动态评估框架,从任意原始基准出发无限生成复杂度可调、数据污染率更低的变体样本。
方法详解¶
整体框架¶
SDEval 以原始安全基准样本 \(P=(T, I)\) 为输入,通过动态策略集 \(\mathfrak{D}\) 生成新的文本-图像对 \(P'=(T', I')\)。框架分为三个维度:文本动态、图像动态和跨模态动态。生成后由验证器 Agent 确保语义一致性,最后用评分器判断模型响应的有害程度。
关键设计¶
-
文本动态策略(6种)
- 功能:从人类绕过审核的策略出发,在不改变语义的前提下修改文本以增加安全识别难度
- 核心策略:
- 词替换(同义词/上下文近似词替换 ≤5 个词)
- 句子改写(保留核心概念、变换句式)
- 添加描述(相关/无关描述干扰模型注意力)
- 制造拼写错误(重复字母、特殊字符等不影响可读性的变形)
- 多语言混合(中英俄法日韩多语言重构)
- 思维链注入(添加"逐步回答"指令)
- 设计动机:模拟真实世界中用户通过语言变形绕过安全审查的行为
-
图像动态策略(2类)
- 功能:通过基础增强和生成式操作修改图像,降低数据泄露并测试模型视觉安全识别能力
- 基础增强:空间变换(随机填充 10%-20% + 翻转)和颜色变换(颜色反转 + 椒盐噪声)
- 生成与操作:Caption 引导的 SD3.5-Large 重新生成;使用 ICEdit 进行物体插入、文字插入和风格迁移
- 质量保证:GPT-4o 验证生成图像与原始图像的语义一致性
- 设计动机:生成式方式产生的图像与原始样本视觉差异大,能有效降低数据泄露率
-
跨模态动态策略(4种)
- 功能:探索文本-图像交互对安全的影响
- Text-to-Image:将文本动态变体注入图像生成(采样文本扰动 → 生成 caption → SD 生成新图)
- Image-to-Text:将图像动态变体注入文本(采样图像扰动 → GPT-4o 生成安全相关 caption → 前置于原始文本)
- FigStep 越狱:将文本提示转为排版图片直接输入(绕过文本安全对齐)
- HADES 越狱:将不安全关键词从文本迁移到图像中
评估体系¶
在 MLLMGuard 上使用 ASD(攻击成功程度↓)和 PAR(完美回答率↑)两个指标;在 VLSBench 上使用安全率 SR(安全拒绝 + 安全警告的比例↑)。
实验关键数据¶
主实验——MLLMGuard 动态评估¶
| 模型 | ASD↓(动态) | ASD(原始) | PAR↑(动态) | PAR(原始) |
|---|---|---|---|---|
| GPT-4o | 32.78 | 29.22 | 24.71 | 40.38 |
| Claude-4-Sonnet | 25.42 | 23.49 | 51.89 | 56.37 |
| InternVL-3-78B | 39.34 | 30.04 | 21.40 | 39.04 |
| Qwen-VL-2.5-7B | 40.17 | 29.46 | 33.96 | 44.04 |
消融实验——不同动态策略效果(InternVL-Chat-V1.5)¶
| 策略 | ASD↓ | ΔASD | PAR↑ | ΔPAR |
|---|---|---|---|---|
| 原始 | 32.21 | - | 40.19 | - |
| 词替换 | 38.71 | +6.30 | 26.94 | -13.25 |
| FigStep | 41.96 | +9.55 | 17.08 | -23.11 |
| 添加物体 | 39.41 | +7.00 | 26.45 | -13.74 |
| Text-to-Image | 35.10 | +2.69 | 24.36 | -15.83 |
能力评估影响(SDEval 对能力基准的影响)¶
| 模型 | MMVet(原始→动态) | MMBench(原始→动态) |
|---|---|---|
| GPT-4o | 68.8→67.5 (-1.3) | 83.4→81.8 (-1.6) |
| Qwen2.5VL-7B | 67.1→63.9 (-3.2) | 83.5→79.3 (-4.2) |
关键发现¶
- FigStep 是最有效的单一策略,ASD 上升约 10%,PAR 下降超 23%——表明视觉嵌入空间未与 LLM 的安全对齐
- 动态评估下所有 MLLM 安全率显著下降,说明模型更多是"记忆"安全答案而非真正理解不安全因素
- 安全性能与模型规模未呈现明显正相关——参数更多的模型可能因更好地理解指令反而更易执行有害请求
- SDEval 对能力基准的影响较小(下降 1-4 分),显示安全比能力更脆弱
亮点与洞察¶
- 框架设计通用灵活:三维度动态策略可组合应用于任意安全基准,且能与基准共存共演进
- 数据泄露缓解有效:生成式图像和文本变体与训练集重合度极低
- 揭示安全-能力不平衡:安全评估在动态扰动下波动远大于能力评估,暗示模型安全对齐深度不足
- FigStep 攻击效果惊人:排版攻击直接绕过文本安全守卫,揭示视觉-语言安全对齐的根本缺陷
局限与展望¶
- 动态策略依赖 GPT-4o 和 SD3.5 等外部模型,成本较高且引入额外偏差
- 语义一致性验证依赖 GPT-4o 判断,可能存在漏检情况
- 未深入分析不同策略组合的交互效应
- 评估仅覆盖两个安全基准,未验证在更多场景(如毒性检测、偏见检测专项基准)上的泛化性
相关工作与启发¶
- 动态评估的思路可推广至其他 AI 安全领域(如 LLM 对齐评估、代码安全评估)
- FigStep 和 HADES 攻击的有效性表明,视觉-语言安全对齐是一个被严重忽视的安全盲区
- 安全与能力的不平衡发现为 AI 45° 定律提供了实证支持
评分¶
⭐⭐⭐⭐
- 新颖性 ⭐⭐⭐⭐:首个安全动态评估框架,三维度策略设计系统全面
- 实验充分度 ⭐⭐⭐⭐:覆盖 17 个 MLLM、2 个安全基准 + 2 个能力基准,消融详尽
- 写作质量 ⭐⭐⭐⭐:动机清晰,框架图易于理解
- 价值 ⭐⭐⭐⭐:为 MLLM 安全评估提供了可持续演进的方法论,对社区有实际指导意义
相关论文¶
- [CVPR 2026] Evolving Contextual Safety in Multi-Modal Large Language Models via Inference-Time Self-Reflective Memory
- [ACL 2026] SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models
- [ICCV 2025] SimpleVQA: Multimodal Factuality Evaluation for Multimodal Large Language Models
- [ICLR 2026] Dynamic Multimodal Activation Steering for Hallucination Mitigation in Large Vision-Language Models
- [NeurIPS 2025] Video-SafetyBench: A Benchmark for Safety Evaluation of Video LVLMs