LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models¶

会议: CVPR 2026
arXiv: 2509.25896
代码: 无
领域: 多模态VLM / AI安全
关键词: 多模态多轮对话安全, 内容审核, VLM安全, 红队测试, 风险分类

一句话总结¶

针对 VLM 多模态多轮对话场景的安全问题（恶意意图隐蔽性、上下文风险累积、跨模态联合风险），构建了包含 4,484 个标注对话的 MMDS 数据集（8 大类 60 子维度风险分类），提出自动化多模态多轮红队测试框架 MMRT 和安全审计模型 LLaVAShield，在多个基准上显著优于现有内容审核工具和 SOTA VLM。

背景与动机¶

随着 VLM 进入交互式多轮使用场景，安全问题日益突出。多模态多轮对话有三个独特挑战：

恶意意图隐蔽性：攻击者可以在多轮对话中逐步引导模型产生有害内容，单轮中每条消息看似无害
上下文风险累积：随着对话进行，上下文中积累的信息可能逐渐形成安全风险
跨模态联合风险：文本和图像组合可能产生单一模态中不存在的安全风险

现有的内容审核方法主要针对单轮或单模态场景设计，难以有效应对这些挑战。

核心问题¶

如何在多模态多轮对话中有效检测和防范安全风险？需要：(1) 合适的数据集和风险分类体系；(2) 自动化的对抗样本生成方法；(3) 能理解对话上下文和跨模态信息的安全审计模型。

方法详解¶

整体框架¶

三个核心贡献：MMDS 数据集 → MMRT 红队框架 → LLaVAShield 审计模型

关键设计¶

MMDS 数据集: 首个面向多模态多轮对话安全的标注数据集，包含 4,484 个标注对话。设计了全面的风险分类体系：8 个主要风险维度、60 个细分子维度。每个对话标注涵盖用户输入和助手响应两侧的安全评估。
MMRT（多模态多轮红队测试框架）: 自动化生成不安全的多模态多轮对话，专门模拟现实中的攻击模式：逐步引导、上下文操控、图文配合攻击等。生成的对话用于构建 MMDS 数据集和评估 VLM 脆弱性。
LLaVAShield: 基于 VLM 的安全审计模型，能够在指定策略维度下审计多模态多轮对话中用户输入和助手响应的安全性。核心能力包括：
理解完整对话上下文（不仅看当前轮次）
跨模态风险理解（图文联合分析）
灵活的策略适配（可指定关注的安全维度）

损失函数 / 训练策略¶

基于 MMDS 数据集进行有监督微调，训练模型判断对话安全性并输出风险维度分析。

实验关键数据¶

LLaVAShield 在安全审计任务上显著优于 SOTA VLM 和现有内容审核工具
对主流 VLM 的脆弱性进行了系统分析，揭示了多轮对话中的安全漏洞
展现了强泛化能力和灵活的策略适配性
关键组件的贡献分析验证了各设计决策的有效性

消融实验要点¶

多轮上下文理解对检测隐蔽攻击至关重要
跨模态分析比单模态分析更有效
风险分类体系的细粒度设计提升了检测精度

亮点¶

问题重要且及时：随着 VLM 多轮交互应用增多，多轮安全是迫切需要解决的问题
全面的风险分类体系：8×60 的分类覆盖面广，可作为行业标准
实用的红队框架：MMRT 可自动生成对抗样本，持续评估和改进 VLM 安全性
端到端解决方案：从数据集构建到攻击生成到防御模型，提供了完整的安全工作流

局限性 / 可改进方向¶

HTML 版本不可用，部分技术细节需参阅 PDF
4,484 个对话规模相对有限，扩展到更大规模可能进一步提升性能
风险分类体系的完整性取决于人工设计，可能遗漏新兴风险类型
安全审计本身增加了推理延迟

与相关工作的对比¶

vs 单轮安全工具（如 Llama Guard）: 这些工具无法处理多轮上下文累积的风险和跨模态联合风险
vs 单模态安全方法: 缺乏图文联合风险理解能力
vs VLM 自身拒绝机制: VLM 的内置安全机制在多轮攻击场景下容易被绕过

启发与关联¶

MMDS 数据集的风险分类体系可以作为 VLM 安全评估的标准化框架
MMRT 红队框架可以集成到 VLM 开发流程中，实现持续的安全测试
LLaVAShield 作为独立审计模型，可以作为 VLM 部署时的安全过滤层

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究多模态多轮对话安全，问题定义和方案设计合理
实验充分度: ⭐⭐⭐⭐ 多维度对比和分析，但 HTML 不可访问限制了完整评估
写作质量: ⭐⭐⭐⭐ 问题定义清晰（基于摘要判断）
价值: ⭐⭐⭐⭐ 数据集和方法对 VLM 安全部署有重要实用价值