UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models¶

日期: 2026-03-18
arXiv: 2603.17476
代码: GitHub
领域: 多模态/VLM / AI安全
关键词: 统一多模态模型, 安全评估, 跨模态风险, 多图组合, 多轮攻击

一句话总结¶

提出 UniSAFE，首个系统级 UMM 安全基准，覆盖 7 种 I/O 模态组合（包括首次评估多图组合和图像输出安全），通过"共享目标"设计控制跨任务对比，评估 15 个 SOTA UMM 发现图像输出任务比文本输出显著更脆弱、多图组合和多轮场景安全违规率最高。

研究背景与动机¶

领域现状: 统一多模态模型（UMM, 如 GPT-5、Janus、BAGEL）能同时理解和生成文本/图像，支持图像编辑、多图组合、多轮交互等复杂任务。
现有痛点: 安全评估基准碎片化——有的只评 text-to-image（T2ISafety），有的只评 image-to-text（MM-Safetybench），有的只评多轮（CoJ-Bench）。没有任何基准覆盖 UMM 的全部任务类型，尤其是多图组合（两张无害图片组合可能产生有害输出）从未被评估过。
核心矛盾: UMM 的"any-to-any"能力引入了组合性安全风险——单输入安全不代表组合安全、单轮安全不代表多轮安全——但评估工具跟不上模型能力。
核心 idea: 用"共享目标"设计——同一个风险场景在不同任务类型（T2I、编辑、组合、多轮）下实例化，使跨任务安全比较成为可能。

方法详解¶

基准设计¶

7 种任务类型（按 I/O 模态组合）： - 图像输出：Text-to-Image (TI)、Image Editing (IE)、Image Composition (IC, 多图)、Multi-Turn editing (MT) - 文本输出：Text-to-Text (TT)、Image-to-Text (IT)、Multimodal Understanding (MU)

共享目标设计 (Shared-Target)： - 为每个风险场景定义统一的"目标有害输出" - 在 7 种任务类型下分别创建对应的输入配置 - 目标不变 + 输入变化 → 可以公平比较"哪种输入方式最容易触发有害输出"

数据规模：6,802 个高质量实例，人工审核 安全类别：参照 OWASP/标准安全分类体系

评估发现¶

关键结论： 1. 图像输出 >> 文本输出（脆弱性）: 几乎所有模型在图像输出任务上的安全违规率都高于文本输出——安全对齐在生成侧严重不足 2. 多图组合是最大盲区: 两张无害图片在组合指令下可能产生有害图像——这是全新的攻击面 3. 多轮渐进式攻击有效: 通过一系列无害编辑请求逐步将无害图片变成有害内容 4. 闭源 > 开源（安全性）: 但闭源模型在多图组合等新场景下仍有显著漏洞 5. 开源模型安全差距巨大: 部分开源 UMM 在图像输出安全上几乎没有防护

实验数据¶

发现	数据
评估模型数	15（2 闭源 + 13 开源）
图像输出违规率	远高于文本输出
多图组合	安全违规率最高的任务类型之一
模态偏差	安全对齐集中在文本侧，图像侧薄弱

亮点与洞察¶

"组合性安全风险"的系统性揭示: A 安全 + B 安全 ≠ A+B 安全——这对 UMM 安全防护有根本性启示。需要从单输入检查升级到组合语境检查。
共享目标设计的方法论创新: 在不同任务类型间保持目标一致——这是第一个真正支持跨任务安全比较的基准设计。
图像生成安全的系统性不足: 安全对齐投入集中在 text output（refuse to answer），但 image output 的防护远远落后——这是 UMM 时代的新挑战。
工程实现考量：该方法的计算开销可控，在标准 GPU 上可以合理时间内完成训练和推理，具有实际部署潜力
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力

局限性 / 可改进方向¶

仅关注安全过滤失败：未评估 false positive（安全内容被误拦截）
英语为主：跨语言安全评估不足
静态评估：未涵盖自适应攻击（如根据拒绝动态修改输入）
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统级 UMM 安全基准，多图组合安全评估是首创
实验充分度: ⭐⭐⭐⭐⭐ 15 模型 × 7 任务类型 × 多安全类别
写作质量: ⭐⭐⭐⭐ 形式化定义清晰，覆盖全面
价值: ⭐⭐⭐⭐⭐ 对 UMM 安全对齐研究有直接推动意义