跳转至

Evolving Contextual Safety in Multi-Modal Large Language Models via Inference-Time Self-Reflective Memory

会议: CVPR 2026
arXiv: 2603.15800
代码: https://EchoSafe-mllm.github.io
领域: 多模态VLM
关键词: MLLM安全, 上下文安全, 自反思记忆, 推理时防御, 安全基准

一句话总结

提出 MM-SafetyBench++ 基准和 EchoSafe 框架,通过推理时维护自反思记忆库来累积安全洞察,使 MLLM 能够根据上下文区分看起来相似但安全意图不同的场景,无需训练即可提升上下文安全性。

研究背景与动机

  1. 领域现状:MLLM 在多模态推理任务上表现出色,但面临安全风险。现有防御方法主要聚焦于越狱攻击的检测和拒绝。
  2. 现有痛点:现有方法往往表现出过度防御行为——即使是良性查询也会被拒绝。例如,看到厨房里的刀就拒绝回答"我该怎样使用这把刀",但实际上用户只是在问做饭。
  3. 核心矛盾:安全性和实用性之间存在 trade-off。过度防御保证了安全但损害了帮助性,而放松防御则可能导致有害输出。
  4. 本文要解决什么? (a) 缺乏评估上下文安全的系统性基准;(b) 如何让模型在不训练的前提下理解上下文差异并做出合适的安全决策。
  5. 切入角度:人类通过积累过往经验形成抽象认知模式,在面对类似但不同的情境时能灵活应对。受此启发,让模型在推理时也维护一个"经验记忆库"。
  6. 核心idea:用自反思记忆库在推理时动态累积和检索安全洞察,使模型的安全行为能够持续进化。

方法详解

整体框架

EchoSafe 是一个 training-free 框架,分为两个核心机制:(1) 自反思记忆构建——对每个交互提取安全洞察并存入记忆库;(2) 记忆检索增强推理——在新查询到来时检索最相关的过往安全经验,整合到 prompt 中引导模型的上下文安全推理。

关键设计

  1. MM-SafetyBench++ 基准:
  2. 做什么:为每个不安全的图文对构建一个安全对应版本,通过最小修改翻转用户意图
  3. 核心思路:保持底层上下文语义不变,仅改变安全意图,形成 safe-unsafe 配对样本
  4. 设计动机:解决现有基准只关注拒绝行为、难度过低、评估指标粗糙的三个问题

  5. 自反思记忆库(Self-Reflective Memory Bank):

  6. 做什么:在推理过程中动态积累上下文安全洞察
  7. 核心思路:每次交互后模型对自身的安全推理进行反思,提取安全相关的 pattern 存储为记忆条目
  8. 设计动机:模拟人类从经验中学习的认知过程,让安全能力能随使用持续进化

  9. 上下文安全检索推理:

  10. 做什么:在新查询到来时检索最相关的记忆条目整合到 prompt
  11. 核心思路:基于语义相似度检索过往类似安全场景的经验,作为 in-context examples 引导模型
  12. 设计动机:让模型能基于以往的安全判断经验做出更有上下文意识的安全推理

评估指标

引入上下文正确率(CCR)和响应质量评分(QS)的调和平均,同时评估安全拒绝率和对安全查询的回答率。

实验关键数据

主实验

模型 方法 非法活动 CCR/QS 仇恨言论 CCR/QS 物理伤害 CCR/QS 欺诈 CCR/QS
GPT-5 基线 91.9/4.6 93.1/4.6 94.9/4.8 85.9/4.3
GPT-5-Mini 基线 92.2/4.5 92.7/4.5 96.4/4.8 88.4/4.4
Gemini-2.5-Pro 基线 76.4/3.6 79.8/3.7 63.3/3.0 68.9/3.3
LLaVA-1.5-7B 基线 7.9/0.4 16.8/0.7 8.1/0.4 -
LLaVA-1.5-7B +EchoSafe 显著提升 显著提升 显著提升 显著提升

消融实验

配置 CCR QS 说明
Full EchoSafe 最优 最优 完整框架
w/o 记忆检索 下降 下降 去掉检索后退化为零样本
w/o 自反思 下降 下降 缺少经验积累
随机记忆 下降 下降 不相关记忆无法引导推理

关键发现

  • 开源模型在上下文安全方面远落后于闭源模型,LLaVA-1.5-7B 的 CCR 仅为个位数
  • EchoSafe 在多个模型上一致提升上下文安全性,同时保持通用任务上的帮助性
  • 记忆库的持续积累使安全性能随交互增多而提升,体现了"进化"特性
  • 计算开销合理,适合实际部署

亮点与洞察

  • safe-unsafe 配对设计非常巧妙:通过最小修改翻转意图,精确评估模型的上下文理解能力,而非简单的安全/不安全二分类
  • training-free 设计使其可直接应用于任何 MLLM,无需重新训练或微调
  • 自反思记忆的"持续进化"特性让模型安全能力随使用而增长,这是与现有方法的根本区别
  • 上下文推理的思路可以迁移到其他需要细粒度理解的任务

局限性 / 可改进方向

  • 记忆库的规模增长可能带来检索效率和存储问题
  • 自反思的质量依赖于模型本身的安全判断能力,对弱模型效果可能有限
  • 基准主要关注视觉-文本对,未涉及更复杂的多轮对话安全场景
  • 记忆条目的质量控制和去重机制还有优化空间

相关工作与启发

  • vs ECSO/AdaShield: 先前的 prompt 工程方法通过固定模板引导安全推理,EchoSafe 通过动态记忆检索实现更灵活的上下文适应
  • vs 安全微调方法 (VLGuard等): 微调受限于训练数据,EchoSafe 无需训练即可持续适应新场景
  • 上下文安全的概念可以启发其他多模态安全研究,如视频理解中的安全判断

评分

  • 新颖性: ⭐⭐⭐⭐ 上下文安全的问题形式化和记忆驱动的框架设计有新意
  • 实验充分度: ⭐⭐⭐⭐ 涵盖 4 个安全基准和 4 个通用基准,3 个代表性 MLLM
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,方法描述直观
  • 价值: ⭐⭐⭐⭐ 上下文安全是部署 MLLM 的关键问题,基准和方法都有实用价值