SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings¶

会议: ACL 2025
arXiv: 2502.12562
代码: https://github.com/ZeroNLP/SEA
领域: 对齐RLHF
关键词: safety alignment, multimodal LLM, synthetic embeddings, low-resource, VA-SafetyBench

一句话总结¶

提出 SEA 框架，通过梯度优化生成合成模态 embedding（不需要真实图像/视频/音频），仅用文本安全数据就能实现多模态 LLM 的安全对齐，在单张 RTX3090 上 24 秒即可合成高质量 embedding，同时发布了视频和音频安全基准 VA-SafetyBench。

研究背景与动机¶

领域现状：MLLM 面临严重安全漏洞——通过注入恶意图像/音频可轻易诱导模型服从有害指令。SFT 和 RLHF 等安全对齐方法有效但需要多模态安全数据集，构建成本高昂。
现有痛点：(1) 多模态安全数据需要文本指令、文本回复和额外模态三者强相关，收集极其昂贵。(2) 每当新模态出现（如脑电信号）就需要重建数据集。(3) 纯文本对齐虽然低成本，但只在文本包含明确有害信息时有效，无法防御仅通过图像/音频传递的恶意信息。
核心矛盾：需要多模态数据做安全对齐，但不是所有模态都有高性能生成模型来生成安全训练数据。
本文要解决什么？ 在仅有文本安全数据的条件下，如何实现跨模态的安全对齐？
切入角度：关键洞察——安全对齐中使用的额外模态数据（如炸弹图像）不需要对人类可解释，只需要被 MLLM 理解为特定有害内容即可。因此可以在模态编码器的输出空间中直接优化 embedding。
核心 idea 一句话：将额外模态 embedding 视为可训练权重，通过梯度优化让 MLLM 认为该 embedding 包含特定有害活动/产品，从而在无真实多模态数据的条件下实现安全对齐。

方法详解¶

整体框架¶

三阶段：(1) 数据准备——从文本安全数据提取有害信息并构建辅助数据 (2) Embedding 优化——在模态编码器输出空间优化合成 embedding (3) 安全对齐——将合成 embedding 与文本数据结合进行多模态对齐训练。

关键设计¶

数据准备:
做什么：从文本安全指令中提取有害短语，分为"活动"和"产品"两类，构建内容控制样本和风格控制样本。
核心思路：用 GPT-4o-mini 提取有害短语并转为完整句子。内容控制样本让 embedding"描述"特定有害内容；风格控制样本增加 embedding 多样性。每个样本仅需 2 个辅助数据点。
设计动机：两个控制样本分别确保 embedding 的内容准确性和表征多样性。
Embedding 优化:
做什么：将模态编码器 \(M(\cdot)\) 的输出视为可训练权重 \(E_o\)，通过梯度更新最大化 MLLM 在给定 \(E_o\) 条件下生成目标文本的概率。
核心思路：\(L(E_o) = -\frac{1}{|D_a^i|}\sum_{(x^i, y^i) \in D_a^i} \log(P_r(y^i | x^i, P(E_o)))\)，冻结整个 MLLM，仅更新 \(E_o\)。从空白图像/视频/静音音频初始化。
设计动机：在 \(M(\cdot)\) 输出空间而非原始数据空间优化，因为 \(M(\cdot)\) 通常在训练中冻结，使得合成 embedding 可以与真实多模态数据无缝混合。
安全对齐训练:
做什么：将优化后的 embedding 与去毒化的文本指令结合，替代真实多模态数据进行 SFT/RLHF 训练。
核心思路：去毒化指令中有害短语替换为"this product/activity"，有害信息完全通过合成 embedding 传递。绕过 \(M(\cdot)\) 直接使用 \(E^i\)。
设计动机：确保模型学会从非文本模态中识别有害内容并拒绝，而非仅从文本关键词识别。
VA-SafetyBench 基准:
做什么：扩展 MM-SafetyBench 到视频和音频模态。
核心思路：8 个安全场景（非法活动、仇恨言论、恶意软件等），视频部分包含扩散模型生成、文字动画、混合三种任务；音频部分包含纯音频、关键短语转语音、加噪声三种任务。

损失函数 / 训练策略¶

Embedding 优化：标准交叉熵损失，冻结 MLLM 仅更新 \(E_o\)。安全对齐：标准 SFT 或 DPO 损失。

实验关键数据¶

主实验¶

方法	LLaVA ASR↓	Video-LLaMA ASR↓	Qwen2-Audio ASR↓
原始模型	高	高	高
文本对齐	中等	中等	中等
SEA	低	低	低

消融实验¶

配置	效果	说明
仅内容控制样本	有效但不充分	风格控制增加多样性
仅风格控制样本	效果差	内容是核心
24s 优化 vs 更长时间	24s 已足够	收敛快速
多模态真实数据对齐	最优但昂贵	SEA 接近其效果

关键发现¶

极低成本高效果：单张 RTX3090 上 24 秒合成一个高质量 embedding，无需真实多模态数据。
跨模态通用性：同一框架适用于图像、视频、音频三种模态的 MLLM。
文本对齐的局限性被量化：纯文本对齐仅在有害信息出现在文本中时有效，面对纯图像/视频/音频传递的有害信息时失效。
VA-SafetyBench 揭示新风险：视频和音频 MLLM 的 ASR 高达 60-80%，安全问题严峻。

亮点与洞察¶

"不需要对人类可解释"的关键洞察极其精妙：安全训练中的图像不需要人能看懂，只需要模型能"看懂"。这个洞察使得在 embedding 空间优化成为可能，绕过了需要真实数据生成器的限制。
模态无关的安全对齐方法：因为在 \(M(\cdot)\) 输出空间工作，对具体模态编码器无感知，可直接推广到未来新模态。
成本效率惊人：24 秒 + 单 GPU，比收集/生成真实多模态安全数据快几个数量级。

局限性 / 可改进方向¶

合成 embedding 的质量受对初始文本数据和辅助样本设计的影响。
对于极其复杂的安全场景（如需要理解图像中多个物体关系的），合成 embedding 可能不够精确。
VA-SafetyBench 从 MM-SafetyBench 一对一转换，可能未覆盖视频/音频特有的安全风险。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 合成 embedding 的想法极其简洁优雅且有效
实验充分度: ⭐⭐⭐⭐ 覆盖图像/视频/音频三种模态 + 新基准
写作质量: ⭐⭐⭐⭐ 方法描述清晰，insights 表达到位
价值: ⭐⭐⭐⭐⭐ 低成本多模态安全对齐，实用价值极高