Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models¶
日期: 2026-03-23
arXiv: 2603.21697
代码: 无
领域: 多模态VLM / AI安全
关键词: MLLM jailbreak, comic-template attack, visual narrative, safety alignment, over-refusal
一句话总结¶
提出 ComicJailbreak——用三格漫画模板将恶意目标嵌入视觉叙事中的越狱基准(1167 个攻击实例,10 类危害,5 种任务),在 15 个 SOTA MLLM 上实测显示漫画攻击的 EASR 超过 90%(多个商业模型),且现有防御(AdaShield/AsD)虽降低攻击成功率但严重过度拒绝正常请求。
研究背景与动机¶
-
领域现状: MLLM 安全对齐主要针对文本越狱(role-play、prompt injection)。多模态越狱研究已有将有害文本渲染为图片(FigStep)、用多图分散注意力等方法,但多把图像当作文本容器或简单干扰项。
-
现有痛点: (i) 缺乏对"叙事驱动型"多模态越狱的系统研究——模型需要理解一个连贯视觉故事并续写;(ii) 现有基准很少包含 paired 的有害/良性请求,无法衡量过度拒绝(误拒正常请求)的问题。
-
核心矛盾: 模型可以拒绝显式有害文本,但当同样意图被包装在连贯的漫画叙事中时(让模型"完成漫画"),角色扮演+叙事续写的框架下安全对齐失效。文本安全 ≠ 多模态安全。
-
切入角度: 设计最简三格漫画模板——前两格建立角色和场景,第三格留空对话气泡填入恶意/良性目标,让模型续写第四格。最小化视觉复杂度以隔离叙事结构的影响。
-
核心 idea: 三格漫画叙事模板 + 角色续写 = 高效低成本的 MLLM 越狱,暴露视觉叙事对安全对齐的盲区。
方法详解¶
整体框架¶
构建 ComicJailbreak 基准 → 在 15 个 MLLM 上评测攻击成功率 → 测试现有防御的有效性和过度拒绝 → 人工评估验证自动安全评判器的可靠性。
关键设计¶
-
种子目标选择:
- 从 JailbreakBench 取 100 有害 + 100 良性行为(10 类危害)
- 从 JailbreakV 的 RedTeam-2K 补充 100 有害查询(每类 10 条)
- 良性目标用于衡量过度拒绝
-
漫画模板设计:
- 5 种任务类型:文章写作、公开演讲、操作指南、社交媒体发帖、代码生成
- 每种类型用 GPT-5 生成三格漫画脚本:Panel 1-2 建立角色和场景,Panel 3 留空
- Panel 3 的空对话气泡填入改写后的目标文本
- 模型被要求续写第四格(符合四格漫画 punchline 的自然模式)
- 总计 1167 个攻击实例
-
目标改写与过滤:
- 用 LLM 将原始恶意目标改写为适合漫画气泡的简短片段
- 保持恶意意图但适配叙事场景
- 人工过滤确保前两格不泄露目标特定内容
-
评测指标:
- ASR (Attack Success Rate): 每个模板的攻击成功率
- EASR (Ensemble ASR): 同一目标跨模板的集成攻击成功率(比 ASR 更高)
- RR (Refusal Rate): 良性目标的拒绝率(衡量过度拒绝)
- ERR (Ensemble Refusal Rate): 集成拒绝率
-
防御评估:
- 测试 AdaShield、Attack as Defense (AsD)、多轮自我反思三种防御
- 观察防御对 EASR 和 RR 的双向影响
自动评判器可靠性验证¶
对 2869 条模型输出做人工标注(双标注 + 仲裁),Cohen's κ=0.751。对比 HarmBench、StrongREJECT、BeaverDam-7B 三个自动评判器,发现它们在良性输出上 FPR 高达 0.437(误判为有害),暴露自动评估在叙事场景下不可靠。
实验关键数据¶
主实验:攻击成功率¶
| 模型 | 文本 ASR | 规则 ASR | 漫画 EASR | 提升 |
|---|---|---|---|---|
| Gemini 2.5 Flash | 14.5% | 86.0% | 90.0% | 最高 |
| Gemini 2.5 Pro | 25.0% | 61.5% | 92.0% | 最高 |
| GPT-5 | 4.5% | 7.5% | 31.5% | 最高 |
| GPT-5.1 | 6.5% | 12.5% | 39.0% | 最高 |
| Qwen2.5-VL 7B | 5.0% | 69.0% | 90.0% | 最高 |
| Qwen3-VL 235B Think | 3.5% | 74.5% | 91.5% | 最高 |
防御效果 vs 过度拒绝¶
| 防御方法 | EASR 降低 | 良性 ERR 增加 |
|---|---|---|
| AdaShield | 显著降低(Qwen3 降 >80%) | 多模型 ERR >80% |
| AsD | 显著降低 | 多模型 ERR >80% |
| 自我反思 | 仅中等降低 | 最小影响(最优) |
| 无防御 | baseline | baseline |
关键发现¶
- 漫画模板中 instructional guide 类最有效,speech 类次之
- 同家族大模型 ASR 反而更高(能力越强越容易被叙事引导)
- Thinking 模型不比 Instruct 更安全,有时甚至更差
- GPT-5 系列防御最好(EASR 18.5-39%),但仍可被攻破
- 自动安全评判器在良性输出上 FNR 高达 0.511(BeaverDam-7B),严重不可靠
亮点与洞察¶
- 叙事续写是新的攻击面: 不同于把文字渲染成图片,漫画模板利用模型的故事续写能力绕过安全对齐,这是视觉理解能力带来的副作用
- 安全-有用性 trade-off 被量化: 首次系统展示现有防御在降低攻击成功率的同时会导致 >80% 的良性请求过度拒绝
- 自动评估不够用: 人工评估揭示自动评判器在叙事场景下的高 FPR/FNR,提示需要多模态专用的安全评估协议
局限性 / 可改进方向¶
- 只用简单三格漫画,未测试更复杂的多角色/长叙事/多轮交互场景
- 仅限英文模板,跨语言/code-mixed 场景未覆盖
- 防御方法只测了 3 种,未探索专门针对视觉叙事的新防御策略
- 漫画生成依赖固定模板,未探索自动生成对抗性漫画
评分¶
- 新颖性: ⭐⭐⭐⭐ 视觉叙事越狱是新角度,漫画模板设计简洁有效
- 实验充分度: ⭐⭐⭐⭐⭐ 15 个模型、多种攻击/防御对比、2869 条人工标注
- 写作质量: ⭐⭐⭐⭐ 结构清晰,case study 直观
- 价值: ⭐⭐⭐⭐ 暴露 MLLM 安全的新盲区,对安全研究有重要参考