MMSafeAware: Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs¶
会议: ACL 2025
arXiv: 2502.11184
代码: https://github.com/Jarviswang94/MMSafetyAwareness
领域: 多模态安全
关键词: multimodal safety, safety awareness, over-sensitivity, benchmark, MLLM, helpfulness-harmlessness trade-off
一句话总结¶
提出 MMSafeAware,首个同时评估"不安全内容识别"和"过度敏感"的多模态安全意识基准,包含 1,500 个跨 29 种安全场景的图文对,评估 9 个 MLLM 发现所有模型都存在安全与有用性的严重权衡——GPT-4V 将 36.1% 的不安全输入误判为安全,同时将 59.9% 的安全输入误判为不安全;三种改进方法均无法根本解决问题。
研究背景与动机¶
- 多模态安全意识的定义与重要性:MLLM 应能正确识别多模态内容的安全性——这是防止生成不安全回复的第一步,也是 MLLM 作为安全评判器的前提,但目前缺乏系统评估框架。
- 跨模态语义融合带来新挑战:单独无害的图片和文本组合后可能表达不安全信息(如 meme),反之亦然——这要求 MLLM 不仅理解每个模态,还要有效融合跨模态信息来判断安全性。
- 过度敏感问题被忽视:已有安全基准(MM-Safety、HateMemes 等)只测"能否发现不安全内容",但忽视了模型过度敏感的问题——过度敏感导致拒绝大量安全请求、严重损害有用性。
- 已有基准覆盖不全面:大多数安全基准是纯文本或纯图片,即使是多模态的也场景数少(MM-Safety 仅 13 类、MossBench 仅 3 类过度安全场景),且不同时覆盖典型不安全/指令攻击/过度安全三大维度。
- 安全系统提示的双刃剑效应:部署中常用"请注意安全"类 system prompt,但其对过度敏感的影响未被系统研究。
- 改进方法的有效性未知:提示工程、视觉对比解码、视觉推理微调等方法能否同时提升安全识别和降低过度敏感,需要在全面基准上验证。
方法详解¶
框架概览¶
MMSafeAware 由两个子集构成:(1) 不安全子集(1,000 图文对)——测试 MLLM 能否识别出组合后不安全的内容(衡量 harmlessness);(2) 过度安全子集(500 图文对)——测试 MLLM 是否对实际安全的内容过度报警(衡量 helpfulness)。覆盖 29 种安全场景,所有数据经三名标注者人工审核。
关键设计¶
- 不安全子集的构建原则
- 做什么:每个测试用例由"单独看都无害"的图片和文本组成,但组合后表达不安全信息。覆盖 17 种不安全场景,包括 14 种典型场景(身体安全、心理安全、财产安全、社会安全四大维度下的自残、色情、经济犯罪、仇恨言论等)和 3 种指令攻击场景(角色扮演、含不安全观点的询问、目标劫持)。
- 核心思路:同一图片或文本在不同搭配下安全性截然不同——这迫使 MLLM 必须融合两个模态才能做出正确判断,而非仅依赖单一模态。
-
设计动机:现实中的多模态不安全内容(如 meme、配图新闻)往往是通过模态组合而非单一模态传达危险信息,这种构造方式更贴近真实威胁。
-
过度安全子集的构建原则
- 做什么:每个测试用例中图片或文本"单独看似不安全"但组合后是安全的。覆盖 12 种过度安全场景,包括 8 种改编自 XSTest(定义、同音词、安全目标、安全上下文、对无意义群体的真实歧视等)和 4 种新设计场景(重言式、公共领域版权、伪目标劫持、伪角色扮演)。
- 核心思路:理想的 MLLM 需要在 helpfulness(有用性)和 harmlessness(无害性)之间找到平衡——过度敏感等同于降低有用性。
-
设计动机:XSTest 提出了文本层面的过度敏感问题,本文首次将其扩展到多模态场景。
-
三种改进方法
- Prompting(闭源适用):显式指示"请结合图片上下文考虑文本含义"——鼓励跨模态融合。
- Visual Contrastive Decoding (VCD)(开源适用):对比原始和加噪视觉输入的输出分布,强化模型对视觉信息的关注。
- Vision-Centric Reasoning Fine-tuning (VRTuning)(开源适用):在长思维多模态推理数据集上微调,引入结构化中间推理步骤来联合分析图文。
- 设计动机:案例分析发现 MLLM 失败的核心原因是过度依赖单一模态(通常是文本),三种方法分别从提示、解码、训练三个层面鼓励跨模态信息融合。
实验¶
表1:主实验——9 个 MLLM 的安全意识准确率¶
| 模型 | 典型不安全↑ | 攻击↑ | 过度安全↑ | 总体↑ |
|---|---|---|---|---|
| GPT-4V | 63.9 | 68.4 | 41.1 | 57.8 |
| GPT-4o | 81.3 | 88.7 | 25.0 | 65.0 |
| Gemini 1.5 | 86.6 | 81.5 | 18.5 | 62.2 |
| Gemini 1.5 Pro | 81.2 | 74.2 | 40.8 | 65.4 |
| Bard | 73.8 | 61.4 | 28.6 | 54.6 |
| Claude-3 | 100.0 | 99.1 | 1.1 | 66.7 |
| LLaVA-1.5-7B | 95.9 | 97.7 | 6.0 | 66.5 |
| Qwen-VL-7B | 86.5 | 95.2 | 13.7 | 65.1 |
| InstructBLIP | 66.1 | 43.9 | 20.5 | 43.5 |
| 人类 | 90.7 | 92.8 | 95.2 | 92.9 |
表2:安全系统提示的影响¶
| 模型 | 不安全↑ | 过度安全↑ | 总体↑ |
|---|---|---|---|
| GPT-4V | 68.2 → 70.4 (+2.2) | 36.0 → 32.1 (-3.9) | 57.7 → 57.6 |
| GPT-4o | 86.6 → 88.2 (+1.6) | 22.7 → 21.9 (-0.8) | 65.7 → 66.1 |
| Gemini 1.5 | 82.8 → 84.5 (+1.7) | 29.9 → 25.6 (-4.3) | 65.5 → 64.9 |
| Gemini 1.5 Pro | 75.0 → 80.9 (+5.9) | 39.3 → 31.2 (-8.1) | 63.3 → 64.3 |
表3:三种改进方法的效果¶
| 模型+方法 | 不安全↑ | 过度安全↑ | 总体↑ |
|---|---|---|---|
| GPT-4V + Prompt | 68.6 | 42.1 | 59.9 |
| GPT-4o + Prompt | 87.9 | 28.4 | 68.5 |
| Gemini 1.5 + Prompt | 89.8 | 39.4 | 73.3 |
| LLaVA + VCD | 88.2 | 15.3 | 63.9 |
| LLaVA + VRTuning | 81.5 | 17.3 | 60.1 |
| Qwen-VL + VCD | 82.5 | 20.1 | 61.7 |
| Qwen-VL + VRTuning | 58.1 | 35.6 | 50.6 |
| InstructBLIP + VRTuning | 70.6 | 29.6 | 56.9 |
关键发现¶
- 所有 MLLM 都不够安全:GPT-4V 将 36.1% 的不安全输入误判为安全,Bard 为 26.2%——作为安全评判器明显不可靠。
- 过度敏感比安全不足更严重:Claude-3 在不安全子集上近乎完美(100%/99.1%),但过度安全子集上仅 1.1%——几乎拒绝一切。LLaVA 仅 6.0%。
- 安全与有用性存在根本性权衡:没有一个模型能在两个子集上同时表现良好。Claude-3 最安全但最过度敏感,GPT-4V 相对温和但安全性不足。
- 安全系统提示是双刃剑:加"请注意安全"提升不安全子集准确率 1.6~5.9 个百分点,但过度安全子集降低 0.8~8.1 个百分点——加 prompt 反而更不好用。
- 注意力分析揭示失败根因:LLaVA 在失败案例中对文本 token(如"kill"、"I"、"you")分配了远高于图像 token 的注意力——模型倾向于忽视视觉信息。
- 三种改进方法均不充分:Prompting 对闭源模型有一定帮助(Gemini 1.5 总体提升 7.8%),VCD 和 VRTuning 对开源模型效果有限甚至负面——问题本质上未被解决。
- 人类远超所有模型:人类在三个维度上均达 90%+(总体 92.9%),与最好模型差距达 25+ 个百分点。
亮点¶
- "不安全+过度安全"双子集设计精准定义了多模态安全意识的完整评估框架——首次将 helpfulness-harmlessness trade-off 从理论讨论转化为可量化基准。
- 29 种安全场景的全面覆盖:远超 MM-Safety (13)、MossBench (3) 等前作,涵盖典型不安全、指令攻击、过度安全三大维度。
- "安全系统提示加剧过度敏感"的发现:对实际部署有重要警示意义——盲目添加安全提示可能适得其反。
- GPT-4V 案例分析的 5 种失败模式:正确/部分正确/事实性错误/误解图像/过度对齐/被目标劫持——为改进方向提供了诊断框架。
局限性¶
- 图文组合的安全判断标准存在一定主观性,尽管有三人标注和多数投票质控(4.7% 数据被丢弃)。
- 三种改进方法均未能根本解决问题——本文更像是"定义问题"而非"解决问题"的工作。
- 仅评估了 9 个 MLLM,更新一代模型(GPT-4o-mini、Claude-3.5 等)的表现未知。
- 过度安全子集(500 个样本)相对于不安全子集(1,000 个)规模较小,部分场景样本数有限。
- 图片来源为 Google Images(Creative Commons),可能存在分布偏差。
相关工作¶
- 纯文本安全基准:SafetyBench (6 场景)、XSTest (首次关注过度敏感)、SafetyAssessBench (含攻击场景) 等,但不涉及多模态。
- 纯图像安全基准:ChemiSafety、ViolenceBench 等仅关注图像内容本身,无法捕捉跨模态组合的安全问题。
- 多模态安全基准:HateMemes (仇恨 meme,1 类)、MM-Safety (13 类但无过度安全)、HADES (5 类)、MossBench (3 类过度安全但无不安全子集)。MMSafeAware 首次同时覆盖不安全和过度安全,场景数 (29) 远超所有前作。
- 多模态内容理解:特征级融合 vs 决策级融合的讨论,决策级的优势在于可对每个模态用最合适的方法,但特征级更能捕捉跨模态关联。
- MLLM 安全改进:Wang et al. (2024) 用 system prompt 提升安全性,VCD (Leng et al., 2024) 通过对比解码增强视觉关注,但均为局部改进。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个同时评估安全性和过度敏感性的多模态基准,29 场景覆盖全面
- 实验充分度: ⭐⭐⭐⭐ 9 个模型评估 + 3 种改进方法 + 案例分析 + 注意力分析 + 安全提示实验
- 写作质量: ⭐⭐⭐⭐ 问题定义精准,双子集设计逻辑清晰,案例分析有洞见
- 价值: ⭐⭐⭐⭐⭐ "安全 vs 有用性"权衡的量化揭示对 MLLM 部署有重要实际意义,定义了多模态安全意识这一新研究方向