跳转至

Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models

日期: 2026-03-23
arXiv: 2603.21697
代码: 无
领域: 多模态VLM / AI安全
关键词: MLLM jailbreak, comic-template attack, visual narrative, safety alignment, over-refusal

一句话总结

提出 ComicJailbreak——用三格漫画模板将恶意目标嵌入视觉叙事中的越狱基准(1167 个攻击实例,10 类危害,5 种任务),在 15 个 SOTA MLLM 上实测显示漫画攻击的 EASR 超过 90%(多个商业模型),且现有防御(AdaShield/AsD)虽降低攻击成功率但严重过度拒绝正常请求。

研究背景与动机

  1. 领域现状: MLLM 安全对齐主要针对文本越狱(role-play、prompt injection)。多模态越狱研究已有将有害文本渲染为图片(FigStep)、用多图分散注意力等方法,但多把图像当作文本容器或简单干扰项。

  2. 现有痛点: (i) 缺乏对"叙事驱动型"多模态越狱的系统研究——模型需要理解一个连贯视觉故事并续写;(ii) 现有基准很少包含 paired 的有害/良性请求,无法衡量过度拒绝(误拒正常请求)的问题。

  3. 核心矛盾: 模型可以拒绝显式有害文本,但当同样意图被包装在连贯的漫画叙事中时(让模型"完成漫画"),角色扮演+叙事续写的框架下安全对齐失效。文本安全 ≠ 多模态安全。

  4. 切入角度: 设计最简三格漫画模板——前两格建立角色和场景,第三格留空对话气泡填入恶意/良性目标,让模型续写第四格。最小化视觉复杂度以隔离叙事结构的影响。

  5. 核心 idea: 三格漫画叙事模板 + 角色续写 = 高效低成本的 MLLM 越狱,暴露视觉叙事对安全对齐的盲区。

方法详解

整体框架

构建 ComicJailbreak 基准 → 在 15 个 MLLM 上评测攻击成功率 → 测试现有防御的有效性和过度拒绝 → 人工评估验证自动安全评判器的可靠性。

关键设计

  1. 种子目标选择:

    • 从 JailbreakBench 取 100 有害 + 100 良性行为(10 类危害)
    • 从 JailbreakV 的 RedTeam-2K 补充 100 有害查询(每类 10 条)
    • 良性目标用于衡量过度拒绝
  2. 漫画模板设计:

    • 5 种任务类型:文章写作、公开演讲、操作指南、社交媒体发帖、代码生成
    • 每种类型用 GPT-5 生成三格漫画脚本:Panel 1-2 建立角色和场景,Panel 3 留空
    • Panel 3 的空对话气泡填入改写后的目标文本
    • 模型被要求续写第四格(符合四格漫画 punchline 的自然模式)
    • 总计 1167 个攻击实例
  3. 目标改写与过滤:

    • 用 LLM 将原始恶意目标改写为适合漫画气泡的简短片段
    • 保持恶意意图但适配叙事场景
    • 人工过滤确保前两格不泄露目标特定内容
  4. 评测指标:

    • ASR (Attack Success Rate): 每个模板的攻击成功率
    • EASR (Ensemble ASR): 同一目标跨模板的集成攻击成功率(比 ASR 更高)
    • RR (Refusal Rate): 良性目标的拒绝率(衡量过度拒绝)
    • ERR (Ensemble Refusal Rate): 集成拒绝率
  5. 防御评估:

    • 测试 AdaShield、Attack as Defense (AsD)、多轮自我反思三种防御
    • 观察防御对 EASR 和 RR 的双向影响

自动评判器可靠性验证

对 2869 条模型输出做人工标注(双标注 + 仲裁),Cohen's κ=0.751。对比 HarmBench、StrongREJECT、BeaverDam-7B 三个自动评判器,发现它们在良性输出上 FPR 高达 0.437(误判为有害),暴露自动评估在叙事场景下不可靠。

实验关键数据

主实验:攻击成功率

模型 文本 ASR 规则 ASR 漫画 EASR 提升
Gemini 2.5 Flash 14.5% 86.0% 90.0% 最高
Gemini 2.5 Pro 25.0% 61.5% 92.0% 最高
GPT-5 4.5% 7.5% 31.5% 最高
GPT-5.1 6.5% 12.5% 39.0% 最高
Qwen2.5-VL 7B 5.0% 69.0% 90.0% 最高
Qwen3-VL 235B Think 3.5% 74.5% 91.5% 最高

防御效果 vs 过度拒绝

防御方法 EASR 降低 良性 ERR 增加
AdaShield 显著降低(Qwen3 降 >80%) 多模型 ERR >80%
AsD 显著降低 多模型 ERR >80%
自我反思 仅中等降低 最小影响(最优)
无防御 baseline baseline

关键发现

  • 漫画模板中 instructional guide 类最有效,speech 类次之
  • 同家族大模型 ASR 反而更高(能力越强越容易被叙事引导)
  • Thinking 模型不比 Instruct 更安全,有时甚至更差
  • GPT-5 系列防御最好(EASR 18.5-39%),但仍可被攻破
  • 自动安全评判器在良性输出上 FNR 高达 0.511(BeaverDam-7B),严重不可靠

亮点与洞察

  • 叙事续写是新的攻击面: 不同于把文字渲染成图片,漫画模板利用模型的故事续写能力绕过安全对齐,这是视觉理解能力带来的副作用
  • 安全-有用性 trade-off 被量化: 首次系统展示现有防御在降低攻击成功率的同时会导致 >80% 的良性请求过度拒绝
  • 自动评估不够用: 人工评估揭示自动评判器在叙事场景下的高 FPR/FNR,提示需要多模态专用的安全评估协议

局限性 / 可改进方向

  • 只用简单三格漫画,未测试更复杂的多角色/长叙事/多轮交互场景
  • 仅限英文模板,跨语言/code-mixed 场景未覆盖
  • 防御方法只测了 3 种,未探索专门针对视觉叙事的新防御策略
  • 漫画生成依赖固定模板,未探索自动生成对抗性漫画

评分

  • 新颖性: ⭐⭐⭐⭐ 视觉叙事越狱是新角度,漫画模板设计简洁有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 15 个模型、多种攻击/防御对比、2869 条人工标注
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,case study 直观
  • 价值: ⭐⭐⭐⭐ 暴露 MLLM 安全的新盲区,对安全研究有重要参考