跳转至

MMSafeAware: Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs

会议: ACL 2025
arXiv: 2502.11184
代码: https://github.com/Jarviswang94/MMSafetyAwareness
领域: 多模态安全
关键词: multimodal safety, safety awareness, over-sensitivity, benchmark, MLLM, helpfulness-harmlessness trade-off

一句话总结

提出 MMSafeAware,首个同时评估"不安全内容识别"和"过度敏感"的多模态安全意识基准,包含 1,500 个跨 29 种安全场景的图文对,评估 9 个 MLLM 发现所有模型都存在安全与有用性的严重权衡——GPT-4V 将 36.1% 的不安全输入误判为安全,同时将 59.9% 的安全输入误判为不安全;三种改进方法均无法根本解决问题。

研究背景与动机

  1. 多模态安全意识的定义与重要性:MLLM 应能正确识别多模态内容的安全性——这是防止生成不安全回复的第一步,也是 MLLM 作为安全评判器的前提,但目前缺乏系统评估框架。
  2. 跨模态语义融合带来新挑战:单独无害的图片和文本组合后可能表达不安全信息(如 meme),反之亦然——这要求 MLLM 不仅理解每个模态,还要有效融合跨模态信息来判断安全性。
  3. 过度敏感问题被忽视:已有安全基准(MM-Safety、HateMemes 等)只测"能否发现不安全内容",但忽视了模型过度敏感的问题——过度敏感导致拒绝大量安全请求、严重损害有用性。
  4. 已有基准覆盖不全面:大多数安全基准是纯文本或纯图片,即使是多模态的也场景数少(MM-Safety 仅 13 类、MossBench 仅 3 类过度安全场景),且不同时覆盖典型不安全/指令攻击/过度安全三大维度。
  5. 安全系统提示的双刃剑效应:部署中常用"请注意安全"类 system prompt,但其对过度敏感的影响未被系统研究。
  6. 改进方法的有效性未知:提示工程、视觉对比解码、视觉推理微调等方法能否同时提升安全识别和降低过度敏感,需要在全面基准上验证。

方法详解

框架概览

MMSafeAware 由两个子集构成:(1) 不安全子集(1,000 图文对)——测试 MLLM 能否识别出组合后不安全的内容(衡量 harmlessness);(2) 过度安全子集(500 图文对)——测试 MLLM 是否对实际安全的内容过度报警(衡量 helpfulness)。覆盖 29 种安全场景,所有数据经三名标注者人工审核。

关键设计

  1. 不安全子集的构建原则
  2. 做什么:每个测试用例由"单独看都无害"的图片和文本组成,但组合后表达不安全信息。覆盖 17 种不安全场景,包括 14 种典型场景(身体安全、心理安全、财产安全、社会安全四大维度下的自残、色情、经济犯罪、仇恨言论等)和 3 种指令攻击场景(角色扮演、含不安全观点的询问、目标劫持)。
  3. 核心思路:同一图片或文本在不同搭配下安全性截然不同——这迫使 MLLM 必须融合两个模态才能做出正确判断,而非仅依赖单一模态。
  4. 设计动机:现实中的多模态不安全内容(如 meme、配图新闻)往往是通过模态组合而非单一模态传达危险信息,这种构造方式更贴近真实威胁。

  5. 过度安全子集的构建原则

  6. 做什么:每个测试用例中图片或文本"单独看似不安全"但组合后是安全的。覆盖 12 种过度安全场景,包括 8 种改编自 XSTest(定义、同音词、安全目标、安全上下文、对无意义群体的真实歧视等)和 4 种新设计场景(重言式、公共领域版权、伪目标劫持、伪角色扮演)。
  7. 核心思路:理想的 MLLM 需要在 helpfulness(有用性)和 harmlessness(无害性)之间找到平衡——过度敏感等同于降低有用性。
  8. 设计动机:XSTest 提出了文本层面的过度敏感问题,本文首次将其扩展到多模态场景。

  9. 三种改进方法

  10. Prompting(闭源适用):显式指示"请结合图片上下文考虑文本含义"——鼓励跨模态融合。
  11. Visual Contrastive Decoding (VCD)(开源适用):对比原始和加噪视觉输入的输出分布,强化模型对视觉信息的关注。
  12. Vision-Centric Reasoning Fine-tuning (VRTuning)(开源适用):在长思维多模态推理数据集上微调,引入结构化中间推理步骤来联合分析图文。
  13. 设计动机:案例分析发现 MLLM 失败的核心原因是过度依赖单一模态(通常是文本),三种方法分别从提示、解码、训练三个层面鼓励跨模态信息融合。

实验

表1:主实验——9 个 MLLM 的安全意识准确率

模型 典型不安全↑ 攻击↑ 过度安全↑ 总体↑
GPT-4V 63.9 68.4 41.1 57.8
GPT-4o 81.3 88.7 25.0 65.0
Gemini 1.5 86.6 81.5 18.5 62.2
Gemini 1.5 Pro 81.2 74.2 40.8 65.4
Bard 73.8 61.4 28.6 54.6
Claude-3 100.0 99.1 1.1 66.7
LLaVA-1.5-7B 95.9 97.7 6.0 66.5
Qwen-VL-7B 86.5 95.2 13.7 65.1
InstructBLIP 66.1 43.9 20.5 43.5
人类 90.7 92.8 95.2 92.9

表2:安全系统提示的影响

模型 不安全↑ 过度安全↑ 总体↑
GPT-4V 68.2 → 70.4 (+2.2) 36.0 → 32.1 (-3.9) 57.7 → 57.6
GPT-4o 86.6 → 88.2 (+1.6) 22.7 → 21.9 (-0.8) 65.7 → 66.1
Gemini 1.5 82.8 → 84.5 (+1.7) 29.9 → 25.6 (-4.3) 65.5 → 64.9
Gemini 1.5 Pro 75.0 → 80.9 (+5.9) 39.3 → 31.2 (-8.1) 63.3 → 64.3

表3:三种改进方法的效果

模型+方法 不安全↑ 过度安全↑ 总体↑
GPT-4V + Prompt 68.6 42.1 59.9
GPT-4o + Prompt 87.9 28.4 68.5
Gemini 1.5 + Prompt 89.8 39.4 73.3
LLaVA + VCD 88.2 15.3 63.9
LLaVA + VRTuning 81.5 17.3 60.1
Qwen-VL + VCD 82.5 20.1 61.7
Qwen-VL + VRTuning 58.1 35.6 50.6
InstructBLIP + VRTuning 70.6 29.6 56.9

关键发现

  • 所有 MLLM 都不够安全:GPT-4V 将 36.1% 的不安全输入误判为安全,Bard 为 26.2%——作为安全评判器明显不可靠。
  • 过度敏感比安全不足更严重:Claude-3 在不安全子集上近乎完美(100%/99.1%),但过度安全子集上仅 1.1%——几乎拒绝一切。LLaVA 仅 6.0%。
  • 安全与有用性存在根本性权衡:没有一个模型能在两个子集上同时表现良好。Claude-3 最安全但最过度敏感,GPT-4V 相对温和但安全性不足。
  • 安全系统提示是双刃剑:加"请注意安全"提升不安全子集准确率 1.6~5.9 个百分点,但过度安全子集降低 0.8~8.1 个百分点——加 prompt 反而更不好用。
  • 注意力分析揭示失败根因:LLaVA 在失败案例中对文本 token(如"kill"、"I"、"you")分配了远高于图像 token 的注意力——模型倾向于忽视视觉信息。
  • 三种改进方法均不充分:Prompting 对闭源模型有一定帮助(Gemini 1.5 总体提升 7.8%),VCD 和 VRTuning 对开源模型效果有限甚至负面——问题本质上未被解决。
  • 人类远超所有模型:人类在三个维度上均达 90%+(总体 92.9%),与最好模型差距达 25+ 个百分点。

亮点

  • "不安全+过度安全"双子集设计精准定义了多模态安全意识的完整评估框架——首次将 helpfulness-harmlessness trade-off 从理论讨论转化为可量化基准。
  • 29 种安全场景的全面覆盖:远超 MM-Safety (13)、MossBench (3) 等前作,涵盖典型不安全、指令攻击、过度安全三大维度。
  • "安全系统提示加剧过度敏感"的发现:对实际部署有重要警示意义——盲目添加安全提示可能适得其反。
  • GPT-4V 案例分析的 5 种失败模式:正确/部分正确/事实性错误/误解图像/过度对齐/被目标劫持——为改进方向提供了诊断框架。

局限性

  • 图文组合的安全判断标准存在一定主观性,尽管有三人标注和多数投票质控(4.7% 数据被丢弃)。
  • 三种改进方法均未能根本解决问题——本文更像是"定义问题"而非"解决问题"的工作。
  • 仅评估了 9 个 MLLM,更新一代模型(GPT-4o-mini、Claude-3.5 等)的表现未知。
  • 过度安全子集(500 个样本)相对于不安全子集(1,000 个)规模较小,部分场景样本数有限。
  • 图片来源为 Google Images(Creative Commons),可能存在分布偏差。

相关工作

  • 纯文本安全基准:SafetyBench (6 场景)、XSTest (首次关注过度敏感)、SafetyAssessBench (含攻击场景) 等,但不涉及多模态。
  • 纯图像安全基准:ChemiSafety、ViolenceBench 等仅关注图像内容本身,无法捕捉跨模态组合的安全问题。
  • 多模态安全基准:HateMemes (仇恨 meme,1 类)、MM-Safety (13 类但无过度安全)、HADES (5 类)、MossBench (3 类过度安全但无不安全子集)。MMSafeAware 首次同时覆盖不安全和过度安全,场景数 (29) 远超所有前作。
  • 多模态内容理解:特征级融合 vs 决策级融合的讨论,决策级的优势在于可对每个模态用最合适的方法,但特征级更能捕捉跨模态关联。
  • MLLM 安全改进:Wang et al. (2024) 用 system prompt 提升安全性,VCD (Leng et al., 2024) 通过对比解码增强视觉关注,但均为局部改进。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个同时评估安全性和过度敏感性的多模态基准,29 场景覆盖全面
  • 实验充分度: ⭐⭐⭐⭐ 9 个模型评估 + 3 种改进方法 + 案例分析 + 注意力分析 + 安全提示实验
  • 写作质量: ⭐⭐⭐⭐ 问题定义精准,双子集设计逻辑清晰,案例分析有洞见
  • 价值: ⭐⭐⭐⭐⭐ "安全 vs 有用性"权衡的量化揭示对 MLLM 部署有重要实际意义,定义了多模态安全意识这一新研究方向