MMSafeAware: Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs¶

会议: ACL 2025
arXiv: 2502.11184
代码: https://github.com/Jarviswang94/MMSafetyAwareness
领域: 多模态安全
关键词: multimodal safety, safety awareness, over-sensitivity, benchmark, MLLM, helpfulness-harmlessness trade-off

一句话总结¶

提出 MMSafeAware，首个同时评估"不安全内容识别"和"过度敏感"的多模态安全意识基准，包含 1,500 个跨 29 种安全场景的图文对，评估 9 个 MLLM 发现所有模型都存在安全与有用性的严重权衡——GPT-4V 将 36.1% 的不安全输入误判为安全，同时将 59.9% 的安全输入误判为不安全；三种改进方法均无法根本解决问题。

研究背景与动机¶

多模态安全意识的定义与重要性：MLLM 应能正确识别多模态内容的安全性——这是防止生成不安全回复的第一步，也是 MLLM 作为安全评判器的前提，但目前缺乏系统评估框架。
跨模态语义融合带来新挑战：单独无害的图片和文本组合后可能表达不安全信息（如 meme），反之亦然——这要求 MLLM 不仅理解每个模态，还要有效融合跨模态信息来判断安全性。
过度敏感问题被忽视：已有安全基准（MM-Safety、HateMemes 等）只测"能否发现不安全内容"，但忽视了模型过度敏感的问题——过度敏感导致拒绝大量安全请求、严重损害有用性。
已有基准覆盖不全面：大多数安全基准是纯文本或纯图片，即使是多模态的也场景数少（MM-Safety 仅 13 类、MossBench 仅 3 类过度安全场景），且不同时覆盖典型不安全/指令攻击/过度安全三大维度。
安全系统提示的双刃剑效应：部署中常用"请注意安全"类 system prompt，但其对过度敏感的影响未被系统研究。
改进方法的有效性未知：提示工程、视觉对比解码、视觉推理微调等方法能否同时提升安全识别和降低过度敏感，需要在全面基准上验证。

方法详解¶

框架概览¶

MMSafeAware 由两个子集构成：(1) 不安全子集（1,000 图文对）——测试 MLLM 能否识别出组合后不安全的内容（衡量 harmlessness）；(2) 过度安全子集（500 图文对）——测试 MLLM 是否对实际安全的内容过度报警（衡量 helpfulness）。覆盖 29 种安全场景，所有数据经三名标注者人工审核。

关键设计¶

不安全子集的构建原则
做什么：每个测试用例由"单独看都无害"的图片和文本组成，但组合后表达不安全信息。覆盖 17 种不安全场景，包括 14 种典型场景（身体安全、心理安全、财产安全、社会安全四大维度下的自残、色情、经济犯罪、仇恨言论等）和 3 种指令攻击场景（角色扮演、含不安全观点的询问、目标劫持）。
核心思路：同一图片或文本在不同搭配下安全性截然不同——这迫使 MLLM 必须融合两个模态才能做出正确判断，而非仅依赖单一模态。
设计动机：现实中的多模态不安全内容（如 meme、配图新闻）往往是通过模态组合而非单一模态传达危险信息，这种构造方式更贴近真实威胁。
过度安全子集的构建原则
做什么：每个测试用例中图片或文本"单独看似不安全"但组合后是安全的。覆盖 12 种过度安全场景，包括 8 种改编自 XSTest（定义、同音词、安全目标、安全上下文、对无意义群体的真实歧视等）和 4 种新设计场景（重言式、公共领域版权、伪目标劫持、伪角色扮演）。
核心思路：理想的 MLLM 需要在 helpfulness（有用性）和 harmlessness（无害性）之间找到平衡——过度敏感等同于降低有用性。
设计动机：XSTest 提出了文本层面的过度敏感问题，本文首次将其扩展到多模态场景。
三种改进方法
Prompting（闭源适用）：显式指示"请结合图片上下文考虑文本含义"——鼓励跨模态融合。
Visual Contrastive Decoding (VCD)（开源适用）：对比原始和加噪视觉输入的输出分布，强化模型对视觉信息的关注。
Vision-Centric Reasoning Fine-tuning (VRTuning)（开源适用）：在长思维多模态推理数据集上微调，引入结构化中间推理步骤来联合分析图文。
设计动机：案例分析发现 MLLM 失败的核心原因是过度依赖单一模态（通常是文本），三种方法分别从提示、解码、训练三个层面鼓励跨模态信息融合。

实验¶

表1：主实验——9 个 MLLM 的安全意识准确率¶

模型	典型不安全↑	攻击↑	过度安全↑	总体↑
GPT-4V	63.9	68.4	41.1	57.8
GPT-4o	81.3	88.7	25.0	65.0
Gemini 1.5	86.6	81.5	18.5	62.2
Gemini 1.5 Pro	81.2	74.2	40.8	65.4
Bard	73.8	61.4	28.6	54.6
Claude-3	100.0	99.1	1.1	66.7
LLaVA-1.5-7B	95.9	97.7	6.0	66.5
Qwen-VL-7B	86.5	95.2	13.7	65.1
InstructBLIP	66.1	43.9	20.5	43.5
人类	90.7	92.8	95.2	92.9

表2：安全系统提示的影响¶

模型	不安全↑	过度安全↑	总体↑
GPT-4V	68.2 → 70.4 (+2.2)	36.0 → 32.1 (-3.9)	57.7 → 57.6
GPT-4o	86.6 → 88.2 (+1.6)	22.7 → 21.9 (-0.8)	65.7 → 66.1
Gemini 1.5	82.8 → 84.5 (+1.7)	29.9 → 25.6 (-4.3)	65.5 → 64.9
Gemini 1.5 Pro	75.0 → 80.9 (+5.9)	39.3 → 31.2 (-8.1)	63.3 → 64.3

表3：三种改进方法的效果¶

模型+方法	不安全↑	过度安全↑	总体↑
GPT-4V + Prompt	68.6	42.1	59.9
GPT-4o + Prompt	87.9	28.4	68.5
Gemini 1.5 + Prompt	89.8	39.4	73.3
LLaVA + VCD	88.2	15.3	63.9
LLaVA + VRTuning	81.5	17.3	60.1
Qwen-VL + VCD	82.5	20.1	61.7
Qwen-VL + VRTuning	58.1	35.6	50.6
InstructBLIP + VRTuning	70.6	29.6	56.9

关键发现¶

所有 MLLM 都不够安全：GPT-4V 将 36.1% 的不安全输入误判为安全，Bard 为 26.2%——作为安全评判器明显不可靠。
过度敏感比安全不足更严重：Claude-3 在不安全子集上近乎完美（100%/99.1%），但过度安全子集上仅 1.1%——几乎拒绝一切。LLaVA 仅 6.0%。
安全与有用性存在根本性权衡：没有一个模型能在两个子集上同时表现良好。Claude-3 最安全但最过度敏感，GPT-4V 相对温和但安全性不足。
安全系统提示是双刃剑：加"请注意安全"提升不安全子集准确率 1.6~5.9 个百分点，但过度安全子集降低 0.8~8.1 个百分点——加 prompt 反而更不好用。
注意力分析揭示失败根因：LLaVA 在失败案例中对文本 token（如"kill"、"I"、"you"）分配了远高于图像 token 的注意力——模型倾向于忽视视觉信息。
三种改进方法均不充分：Prompting 对闭源模型有一定帮助（Gemini 1.5 总体提升 7.8%），VCD 和 VRTuning 对开源模型效果有限甚至负面——问题本质上未被解决。
人类远超所有模型：人类在三个维度上均达 90%+（总体 92.9%），与最好模型差距达 25+ 个百分点。

亮点¶

"不安全+过度安全"双子集设计精准定义了多模态安全意识的完整评估框架——首次将 helpfulness-harmlessness trade-off 从理论讨论转化为可量化基准。
29 种安全场景的全面覆盖：远超 MM-Safety (13)、MossBench (3) 等前作，涵盖典型不安全、指令攻击、过度安全三大维度。
"安全系统提示加剧过度敏感"的发现：对实际部署有重要警示意义——盲目添加安全提示可能适得其反。
GPT-4V 案例分析的 5 种失败模式：正确/部分正确/事实性错误/误解图像/过度对齐/被目标劫持——为改进方向提供了诊断框架。

局限性¶

图文组合的安全判断标准存在一定主观性，尽管有三人标注和多数投票质控（4.7% 数据被丢弃）。
三种改进方法均未能根本解决问题——本文更像是"定义问题"而非"解决问题"的工作。
仅评估了 9 个 MLLM，更新一代模型（GPT-4o-mini、Claude-3.5 等）的表现未知。
过度安全子集（500 个样本）相对于不安全子集（1,000 个）规模较小，部分场景样本数有限。
图片来源为 Google Images（Creative Commons），可能存在分布偏差。

评分¶

新颖性: ⭐⭐⭐⭐ 首个同时评估安全性和过度敏感性的多模态基准，29 场景覆盖全面
实验充分度: ⭐⭐⭐⭐ 9 个模型评估 + 3 种改进方法 + 案例分析 + 注意力分析 + 安全提示实验
写作质量: ⭐⭐⭐⭐ 问题定义精准，双子集设计逻辑清晰，案例分析有洞见
价值: ⭐⭐⭐⭐⭐ "安全 vs 有用性"权衡的量化揭示对 MLLM 部署有重要实际意义，定义了多模态安全意识这一新研究方向