Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models¶

日期: 2026-03-23
arXiv: 2603.21697
代码: 无
领域: 多模态VLM / AI安全
关键词: MLLM jailbreak, comic-template attack, visual narrative, safety alignment, over-refusal

一句话总结¶

提出 ComicJailbreak——用三格漫画模板将恶意目标嵌入视觉叙事中的越狱基准（1167 个攻击实例，10 类危害，5 种任务），在 15 个 SOTA MLLM 上实测显示漫画攻击的 EASR 超过 90%（多个商业模型），且现有防御（AdaShield/AsD）虽降低攻击成功率但严重过度拒绝正常请求。

研究背景与动机¶

领域现状: MLLM 安全对齐主要针对文本越狱（role-play、prompt injection）。多模态越狱研究已有将有害文本渲染为图片（FigStep）、用多图分散注意力等方法，但多把图像当作文本容器或简单干扰项。
现有痛点: (i) 缺乏对"叙事驱动型"多模态越狱的系统研究——模型需要理解一个连贯视觉故事并续写；(ii) 现有基准很少包含 paired 的有害/良性请求，无法衡量过度拒绝（误拒正常请求）的问题。
核心矛盾: 模型可以拒绝显式有害文本，但当同样意图被包装在连贯的漫画叙事中时（让模型"完成漫画"），角色扮演+叙事续写的框架下安全对齐失效。文本安全 ≠ 多模态安全。
切入角度: 设计最简三格漫画模板——前两格建立角色和场景，第三格留空对话气泡填入恶意/良性目标，让模型续写第四格。最小化视觉复杂度以隔离叙事结构的影响。
核心 idea: 三格漫画叙事模板 + 角色续写 = 高效低成本的 MLLM 越狱，暴露视觉叙事对安全对齐的盲区。

方法详解¶

整体框架¶

构建 ComicJailbreak 基准 → 在 15 个 MLLM 上评测攻击成功率 → 测试现有防御的有效性和过度拒绝 → 人工评估验证自动安全评判器的可靠性。

关键设计¶

种子目标选择:
- 从 JailbreakBench 取 100 有害 + 100 良性行为（10 类危害）
- 从 JailbreakV 的 RedTeam-2K 补充 100 有害查询（每类 10 条）
- 良性目标用于衡量过度拒绝
漫画模板设计:
- 5 种任务类型：文章写作、公开演讲、操作指南、社交媒体发帖、代码生成
- 每种类型用 GPT-5 生成三格漫画脚本：Panel 1-2 建立角色和场景，Panel 3 留空
- Panel 3 的空对话气泡填入改写后的目标文本
- 模型被要求续写第四格（符合四格漫画 punchline 的自然模式）
- 总计 1167 个攻击实例
目标改写与过滤:
- 用 LLM 将原始恶意目标改写为适合漫画气泡的简短片段
- 保持恶意意图但适配叙事场景
- 人工过滤确保前两格不泄露目标特定内容
评测指标:
- ASR (Attack Success Rate): 每个模板的攻击成功率
- EASR (Ensemble ASR): 同一目标跨模板的集成攻击成功率（比 ASR 更高）
- RR (Refusal Rate): 良性目标的拒绝率（衡量过度拒绝）
- ERR (Ensemble Refusal Rate): 集成拒绝率
防御评估:
- 测试 AdaShield、Attack as Defense (AsD)、多轮自我反思三种防御
- 观察防御对 EASR 和 RR 的双向影响

自动评判器可靠性验证¶

对 2869 条模型输出做人工标注（双标注 + 仲裁），Cohen's κ=0.751。对比 HarmBench、StrongREJECT、BeaverDam-7B 三个自动评判器，发现它们在良性输出上 FPR 高达 0.437（误判为有害），暴露自动评估在叙事场景下不可靠。

实验关键数据¶

主实验：攻击成功率¶

模型	文本 ASR	规则 ASR	漫画 EASR	提升
Gemini 2.5 Flash	14.5%	86.0%	90.0%	最高
Gemini 2.5 Pro	25.0%	61.5%	92.0%	最高
GPT-5	4.5%	7.5%	31.5%	最高
GPT-5.1	6.5%	12.5%	39.0%	最高
Qwen2.5-VL 7B	5.0%	69.0%	90.0%	最高
Qwen3-VL 235B Think	3.5%	74.5%	91.5%	最高

防御效果 vs 过度拒绝¶

防御方法	EASR 降低	良性 ERR 增加
AdaShield	显著降低（Qwen3 降 >80%）	多模型 ERR >80%
AsD	显著降低	多模型 ERR >80%
自我反思	仅中等降低	最小影响（最优）
无防御	baseline	baseline

关键发现¶

漫画模板中 instructional guide 类最有效，speech 类次之
同家族大模型 ASR 反而更高（能力越强越容易被叙事引导）
Thinking 模型不比 Instruct 更安全，有时甚至更差
GPT-5 系列防御最好（EASR 18.5-39%），但仍可被攻破
自动安全评判器在良性输出上 FNR 高达 0.511（BeaverDam-7B），严重不可靠

亮点与洞察¶

叙事续写是新的攻击面: 不同于把文字渲染成图片，漫画模板利用模型的故事续写能力绕过安全对齐，这是视觉理解能力带来的副作用
安全-有用性 trade-off 被量化: 首次系统展示现有防御在降低攻击成功率的同时会导致 >80% 的良性请求过度拒绝
自动评估不够用: 人工评估揭示自动评判器在叙事场景下的高 FPR/FNR，提示需要多模态专用的安全评估协议

局限性 / 可改进方向¶

只用简单三格漫画，未测试更复杂的多角色/长叙事/多轮交互场景
仅限英文模板，跨语言/code-mixed 场景未覆盖
防御方法只测了 3 种，未探索专门针对视觉叙事的新防御策略
漫画生成依赖固定模板，未探索自动生成对抗性漫画

评分¶

新颖性: ⭐⭐⭐⭐ 视觉叙事越狱是新角度，漫画模板设计简洁有效
实验充分度: ⭐⭐⭐⭐⭐ 15 个模型、多种攻击/防御对比、2869 条人工标注
写作质量: ⭐⭐⭐⭐ 结构清晰，case study 直观
价值: ⭐⭐⭐⭐ 暴露 MLLM 安全的新盲区，对安全研究有重要参考