跳转至

SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings

会议: ACL 2025
arXiv: 2502.12562
代码: https://github.com/ZeroNLP/SEA
领域: 对齐RLHF
关键词: safety alignment, multimodal LLM, synthetic embeddings, low-resource, VA-SafetyBench

一句话总结

提出 SEA 框架,通过梯度优化生成合成模态 embedding(不需要真实图像/视频/音频),仅用文本安全数据就能实现多模态 LLM 的安全对齐,在单张 RTX3090 上 24 秒即可合成高质量 embedding,同时发布了视频和音频安全基准 VA-SafetyBench。

研究背景与动机

  1. 领域现状:MLLM 面临严重安全漏洞——通过注入恶意图像/音频可轻易诱导模型服从有害指令。SFT 和 RLHF 等安全对齐方法有效但需要多模态安全数据集,构建成本高昂。
  2. 现有痛点:(1) 多模态安全数据需要文本指令、文本回复和额外模态三者强相关,收集极其昂贵。(2) 每当新模态出现(如脑电信号)就需要重建数据集。(3) 纯文本对齐虽然低成本,但只在文本包含明确有害信息时有效,无法防御仅通过图像/音频传递的恶意信息。
  3. 核心矛盾:需要多模态数据做安全对齐,但不是所有模态都有高性能生成模型来生成安全训练数据。
  4. 本文要解决什么? 在仅有文本安全数据的条件下,如何实现跨模态的安全对齐?
  5. 切入角度:关键洞察——安全对齐中使用的额外模态数据(如炸弹图像)不需要对人类可解释,只需要被 MLLM 理解为特定有害内容即可。因此可以在模态编码器的输出空间中直接优化 embedding。
  6. 核心 idea 一句话:将额外模态 embedding 视为可训练权重,通过梯度优化让 MLLM 认为该 embedding 包含特定有害活动/产品,从而在无真实多模态数据的条件下实现安全对齐。

方法详解

整体框架

三阶段:(1) 数据准备——从文本安全数据提取有害信息并构建辅助数据 (2) Embedding 优化——在模态编码器输出空间优化合成 embedding (3) 安全对齐——将合成 embedding 与文本数据结合进行多模态对齐训练。

关键设计

  1. 数据准备:
  2. 做什么:从文本安全指令中提取有害短语,分为"活动"和"产品"两类,构建内容控制样本和风格控制样本。
  3. 核心思路:用 GPT-4o-mini 提取有害短语并转为完整句子。内容控制样本让 embedding"描述"特定有害内容;风格控制样本增加 embedding 多样性。每个样本仅需 2 个辅助数据点。
  4. 设计动机:两个控制样本分别确保 embedding 的内容准确性和表征多样性。

  5. Embedding 优化:

  6. 做什么:将模态编码器 \(M(\cdot)\) 的输出视为可训练权重 \(E_o\),通过梯度更新最大化 MLLM 在给定 \(E_o\) 条件下生成目标文本的概率。
  7. 核心思路:\(L(E_o) = -\frac{1}{|D_a^i|}\sum_{(x^i, y^i) \in D_a^i} \log(P_r(y^i | x^i, P(E_o)))\),冻结整个 MLLM,仅更新 \(E_o\)。从空白图像/视频/静音音频初始化。
  8. 设计动机:在 \(M(\cdot)\) 输出空间而非原始数据空间优化,因为 \(M(\cdot)\) 通常在训练中冻结,使得合成 embedding 可以与真实多模态数据无缝混合。

  9. 安全对齐训练:

  10. 做什么:将优化后的 embedding 与去毒化的文本指令结合,替代真实多模态数据进行 SFT/RLHF 训练。
  11. 核心思路:去毒化指令中有害短语替换为"this product/activity",有害信息完全通过合成 embedding 传递。绕过 \(M(\cdot)\) 直接使用 \(E^i\)
  12. 设计动机:确保模型学会从非文本模态中识别有害内容并拒绝,而非仅从文本关键词识别。

  13. VA-SafetyBench 基准:

  14. 做什么:扩展 MM-SafetyBench 到视频和音频模态。
  15. 核心思路:8 个安全场景(非法活动、仇恨言论、恶意软件等),视频部分包含扩散模型生成、文字动画、混合三种任务;音频部分包含纯音频、关键短语转语音、加噪声三种任务。

损失函数 / 训练策略

Embedding 优化:标准交叉熵损失,冻结 MLLM 仅更新 \(E_o\)。安全对齐:标准 SFT 或 DPO 损失。

实验关键数据

主实验

方法 LLaVA ASR↓ Video-LLaMA ASR↓ Qwen2-Audio ASR↓
原始模型
文本对齐 中等 中等 中等
SEA

消融实验

配置 效果 说明
仅内容控制样本 有效但不充分 风格控制增加多样性
仅风格控制样本 效果差 内容是核心
24s 优化 vs 更长时间 24s 已足够 收敛快速
多模态真实数据对齐 最优但昂贵 SEA 接近其效果

关键发现

  • 极低成本高效果:单张 RTX3090 上 24 秒合成一个高质量 embedding,无需真实多模态数据。
  • 跨模态通用性:同一框架适用于图像、视频、音频三种模态的 MLLM。
  • 文本对齐的局限性被量化:纯文本对齐仅在有害信息出现在文本中时有效,面对纯图像/视频/音频传递的有害信息时失效。
  • VA-SafetyBench 揭示新风险:视频和音频 MLLM 的 ASR 高达 60-80%,安全问题严峻。

亮点与洞察

  • "不需要对人类可解释"的关键洞察极其精妙:安全训练中的图像不需要人能看懂,只需要模型能"看懂"。这个洞察使得在 embedding 空间优化成为可能,绕过了需要真实数据生成器的限制。
  • 模态无关的安全对齐方法:因为在 \(M(\cdot)\) 输出空间工作,对具体模态编码器无感知,可直接推广到未来新模态。
  • 成本效率惊人:24 秒 + 单 GPU,比收集/生成真实多模态安全数据快几个数量级。

局限性 / 可改进方向

  • 合成 embedding 的质量受对初始文本数据和辅助样本设计的影响。
  • 对于极其复杂的安全场景(如需要理解图像中多个物体关系的),合成 embedding 可能不够精确。
  • VA-SafetyBench 从 MM-SafetyBench 一对一转换,可能未覆盖视频/音频特有的安全风险。

相关工作与启发

  • vs Chakraborty et al. (2024) 文本对齐: 验证了文本对齐可以提升安全性,但发现其对仅通过非文本模态传递的攻击无效;SEA 通过合成 embedding 弥补了这一缺陷。
  • vs 生成模型方法: 用扩散模型生成安全训练图像是替代方案,但 (1) 不是所有模态都有好的生成模型 (2) 生成成本高;SEA 直接在 embedding 空间优化,更通用更高效.

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 合成 embedding 的想法极其简洁优雅且有效
  • 实验充分度: ⭐⭐⭐⭐ 覆盖图像/视频/音频三种模态 + 新基准
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,insights 表达到位
  • 价值: ⭐⭐⭐⭐⭐ 低成本多模态安全对齐,实用价值极高