UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models¶
日期: 2026-03-18
arXiv: 2603.17476
代码: GitHub
领域: 多模态/VLM / AI安全
关键词: 统一多模态模型, 安全评估, 跨模态风险, 多图组合, 多轮攻击
一句话总结¶
提出 UniSAFE,首个系统级 UMM 安全基准,覆盖 7 种 I/O 模态组合(包括首次评估多图组合和图像输出安全),通过"共享目标"设计控制跨任务对比,评估 15 个 SOTA UMM 发现图像输出任务比文本输出显著更脆弱、多图组合和多轮场景安全违规率最高。
研究背景与动机¶
-
领域现状: 统一多模态模型(UMM, 如 GPT-5、Janus、BAGEL)能同时理解和生成文本/图像,支持图像编辑、多图组合、多轮交互等复杂任务。
-
现有痛点: 安全评估基准碎片化——有的只评 text-to-image(T2ISafety),有的只评 image-to-text(MM-Safetybench),有的只评多轮(CoJ-Bench)。没有任何基准覆盖 UMM 的全部任务类型,尤其是多图组合(两张无害图片组合可能产生有害输出)从未被评估过。
-
核心矛盾: UMM 的"any-to-any"能力引入了组合性安全风险——单输入安全不代表组合安全、单轮安全不代表多轮安全——但评估工具跟不上模型能力。
-
核心 idea: 用"共享目标"设计——同一个风险场景在不同任务类型(T2I、编辑、组合、多轮)下实例化,使跨任务安全比较成为可能。
方法详解¶
基准设计¶
7 种任务类型(按 I/O 模态组合): - 图像输出:Text-to-Image (TI)、Image Editing (IE)、Image Composition (IC, 多图)、Multi-Turn editing (MT) - 文本输出:Text-to-Text (TT)、Image-to-Text (IT)、Multimodal Understanding (MU)
共享目标设计 (Shared-Target): - 为每个风险场景定义统一的"目标有害输出" - 在 7 种任务类型下分别创建对应的输入配置 - 目标不变 + 输入变化 → 可以公平比较"哪种输入方式最容易触发有害输出"
数据规模:6,802 个高质量实例,人工审核 安全类别:参照 OWASP/标准安全分类体系
评估发现¶
关键结论: 1. 图像输出 >> 文本输出(脆弱性): 几乎所有模型在图像输出任务上的安全违规率都高于文本输出——安全对齐在生成侧严重不足 2. 多图组合是最大盲区: 两张无害图片在组合指令下可能产生有害图像——这是全新的攻击面 3. 多轮渐进式攻击有效: 通过一系列无害编辑请求逐步将无害图片变成有害内容 4. 闭源 > 开源(安全性): 但闭源模型在多图组合等新场景下仍有显著漏洞 5. 开源模型安全差距巨大: 部分开源 UMM 在图像输出安全上几乎没有防护
实验数据¶
| 发现 | 数据 |
|---|---|
| 评估模型数 | 15(2 闭源 + 13 开源) |
| 图像输出违规率 | 远高于文本输出 |
| 多图组合 | 安全违规率最高的任务类型之一 |
| 模态偏差 | 安全对齐集中在文本侧,图像侧薄弱 |
亮点与洞察¶
- "组合性安全风险"的系统性揭示: A 安全 + B 安全 ≠ A+B 安全——这对 UMM 安全防护有根本性启示。需要从单输入检查升级到组合语境检查。
- 共享目标设计的方法论创新: 在不同任务类型间保持目标一致——这是第一个真正支持跨任务安全比较的基准设计。
- 图像生成安全的系统性不足: 安全对齐投入集中在 text output(refuse to answer),但 image output 的防护远远落后——这是 UMM 时代的新挑战。
-
工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力
-
可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
局限性 / 可改进方向¶
- 仅关注安全过滤失败:未评估 false positive(安全内容被误拦截)
- 英语为主:跨语言安全评估不足
- 静态评估:未涵盖自适应攻击(如根据拒绝动态修改输入)
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
- 更大规模和更多样化数据上的泛化能力需要进一步验证
相关工作与启发¶
- vs MM-Safetybench: 只评 text output,UniSAFE 扩展到 image output + 多图组合
- vs T2ISafety: 只评 T2I,UniSAFE 覆盖 7 种任务类型
- 启发:UMM 安全需要"系统级"思维——不能只检查单个输入/输出,必须考虑模态组合和多轮交互
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个系统级 UMM 安全基准,多图组合安全评估是首创
- 实验充分度: ⭐⭐⭐⭐⭐ 15 模型 × 7 任务类型 × 多安全类别
- 写作质量: ⭐⭐⭐⭐ 形式化定义清晰,覆盖全面
- 价值: ⭐⭐⭐⭐⭐ 对 UMM 安全对齐研究有直接推动意义