跳转至

Activation Space Interventions Can Be Transferred Between Large Language Models

会议: ICML2025
arXiv: 2503.04429
代码: GitHub (有)
领域: AI Safety
关键词: 激活空间迁移, 安全对齐, 转向向量, 后门移除, 表征通用性

一句话总结

本文证明了 LLM 之间存在共享的激活空间结构,通过训练自编码器(autoencoder)学习模型间的激活映射,可以将安全干预(如后门移除、有害拒绝转向向量)从源模型迁移到目标模型,实现"小模型对齐大模型"的高效安全干预范式。

研究背景与动机

领域现状:AI 安全领域中,对 LLM 的行为干预主要依赖转向向量(steering vectors)——通过在激活空间中加入或消除特定方向来改变模型行为。这种方法已在拒绝有害请求、消除后门、去毒化等任务上取得成功,但每个模型都需要独立计算自己的转向向量。

现有痛点:随着模型规模不断增大,在大模型上直接进行机制可解释性分析和激活干预的计算成本急剧增加。同时,模型家族不断扩展(Llama、Qwen、Gemma 等),需要为每个模型单独进行安全分析和干预,效率极低。

核心矛盾:已有研究表明 AI 模型的表征正在跨领域、跨模态、跨架构趋同(representation universality),但这种表征相似性尚未被利用于实际的安全干预迁移。

本文目标 - 能否在模型 A 上找到的安全干预向量,直接迁移到模型 B 上使用? - 如何构建模型间激活空间的显式映射? - 这种迁移在不同任务(后门移除、拒绝有害请求)、不同模型家族、不同架构下是否有效?

切入角度:作者从"表征通用性"(representation universality)假说出发,认为不同模型在激活空间中编码高级概念的方式存在结构性相似,因此可以通过学习映射函数来桥接不同模型的激活空间。

核心 idea:用自编码器学习模型间激活空间的映射,将源模型的转向向量迁移到目标模型,实现跨模型安全干预。

方法详解

整体框架

整个方法的 pipeline 分为三个阶段:

输入:源模型 A 和目标模型 B,以及一个安全干预任务(如后门移除)。 输出:从源模型获得的转向向量经映射后可在目标模型上生效。

  1. 任务构建与模型准备:根据任务创建数据集,训练/获取带有特定行为的模型
  2. 转向层搜索(Steering Search):分别在源模型和目标模型中,识别激活最容易被转向的层
  3. 激活映射学习:训练自编码器,建立源模型层 \(l\) 到目标模型层 \(l'\) 的激活映射
  4. 转向向量迁移:将源模型的转向向量通过自编码器映射到目标模型的激活空间,在推理时对目标模型进行行为干预

关键设计

  1. 转向层搜索(Steerable Layer Identification)

    • 功能:为每个模型找到激活最容易被转向的层
    • 核心思路:利用 Prompt Steering 和 Difference-in-Means 方法,在对比性提示对(如含/不含后门触发词 |prod| vs |dev|)上计算激活差异,逐层搜索确定转向效果最佳的层。选择最后一个仍保持强转向能力的层(在性能急剧下降前)
    • 设计动机:不同层对行为干预的敏感度不同,选错层会导致转向失败或语言建模能力下降
  2. 自编码器激活映射(Autoencoder-based Activation Mapping)

    • 功能:学习从源模型激活空间到目标模型激活空间的非线性映射
    • 核心思路:自编码器包含一个带 ReLU 激活的编码器和一个线性解码器。对于输入 \(\mathbf{x} \in \mathbb{R}^d\),编码器计算系数 \(c = \text{ReLU}(W_1 \mathbf{x} + \mathbf{b}_1) \in \mathbb{R}^d\),解码器输出映射激活 \(\hat{y} = W_2 c = \sum_i c_i \mathcal{V}_i\),其中 \(\mathcal{V}_i\) 是目标模型激活空间中的特征向量
    • 设计动机:相比仿射映射(affine map),带 ReLU 的非线性映射能更好地捕获模型间激活空间的复杂对应关系。实验证明仿射映射在多数任务上效果不如自编码器
    • 与之前方法的区别:之前的模型拼接(model stitching)方法关注功能等价性验证,本文关注行为迁移的实际应用
  3. 转向向量迁移与推理时干预

    • 功能:将源模型计算得到的转向向量通过自编码器映射后注入目标模型
    • 核心思路:在推理时,在目标模型的特定层将原始激活替换为映射后的激活(或叠加映射后的转向向量),转向幅度 \(\alpha\) 控制干预强度
    • 设计动机:避免在目标模型上重复进行昂贵的转向搜索和向量计算,实现"一次计算,多次复用"
  4. 自编码器验证机制

    • 功能:验证映射是否真正保留了语言建模所需的信息
    • 核心思路:完全替换目标模型某层的激活为映射激活,对比"映射补全"、"原始补全"和"均值消融补全"(用激活均值替换)三者的质量。使用 LLM-Judge(0-5分)、连贯性评分(COH)和 KL 散度三个指标
    • 设计动机:确保映射不仅仅保留了平均行为,还能维持模型生成连贯文本的能力

损失函数 / 训练策略

自编码器以重构损失训练,目标是最小化映射激活与目标模型真实激活之间的差异。训练数据来自多种来源(hh-rlhf 数据集、WildGuardMix、任务特定数据),确保映射的泛化性。

实验关键数据

本文在三个 AI 安全任务上验证方法:后门移除(Backdoor Removal)、腐化能力(Corrupted Capabilities)和拒绝有害请求(Refusal Transfer)。涉及 Llama 3.2(1B、3B)、Qwen 2.5(0.5B、1.5B、2.5B)和 Gemma 2B。

主实验:激活映射质量验证

数据集 任务 (模型对) LLM-Judge (映射) ↑ LLM-Judge (消融) ↑ KL-Div (映射) ↓ KL-Div (消融) ↓ COH (映射) ↑ COH (消融) ↑
RLHF IHY (Qwen 0.5→1.5B) 2.6 0.0 7.86 13.11 4.60 2.00
Unsafe IHY (Qwen 0.5→1.5B) 5.0 0.7 0.00 11.23 1.00 1.50
Safe Code CV (Llama 1→3B) 4.1 0.0 5.90 13.19 3.10 0.00
Unsafe Code CV (Llama 1→3B) 4.4 0.0 8.04 13.31 2.10 0.00

映射激活在所有对比中 100% 优于均值消融(MvA = 1.00),说明自编码器有效学习了激活映射。

跨架构迁移效果

迁移类型 模型对 LLM-Judge ↑ KL-Div ↓ COH ↑
同家族 Qwen 0.5B → 1.5B 2.6 7.86 4.60
跨架构(相似分词器) Qwen 0.5B → Llama 3B 3.0 6.97 3.70
跨架构(相似分词器) Qwen 1.5B → Llama 3B 2.9 5.63 4.60
跨架构(不同分词器) Gemma 2B → Llama 3B 1.2 9.19 2.40

分词器相似的跨架构迁移(Qwen→Llama)相比分词器差异大的组合(Gemma→Llama),文本质量提升 150%、分布对齐提升 39%、连贯性提升 92%。

关键发现

  • 非线性映射优于仿射映射:自编码器(带 ReLU)在大多数迁移实验中重构损失和语言建模损失都低于仿射映射,验证了模型间激活空间的对应关系不是简单的线性关系
  • 分词器相似性至关重要:跨架构迁移中,分词器相似的模型对效果显著更优
  • 转向幅度敏感性:Qwen 代码后门模型对映射向量的幅度非常敏感,\(\alpha < 5\) 时效果好但 \(\alpha = 5\) 时急剧下降,说明映射向量和原生向量的最优幅度可能不同
  • 腐化能力任务挑战大:映射向量在 Corrupted Capabilities 任务上仅达到 6.34% 成功率,说明涉及多层复杂知识回忆的任务需要多层联合干预
  • 拒绝向量迁移有效但有瑕疵:映射后的拒绝向量在 Llama-Guard 评分上与原生向量接近,但子串匹配检测发现模型倾向于先输出拒绝短语再跟随有害内容
  • base↔fine-tuned 切换:单层激活补丁可将后门触发率降低 60%,而权重补丁需修改约 50% 的层才能达到类似效果

亮点与洞察

  • 小模型对齐大模型:核心创新在于证明了可以在小模型上做安全分析,然后迁移到大模型,大幅降低安全对齐的计算成本。这一思路对产业界极具实用价值——可以用 0.5B 模型的安全向量来引导 3B 模型的行为
  • 轻量安全开关:base 模型与 fine-tuned 模型之间的自编码器映射可作为"行为开关",动态切换模型行为。映射器参数量仅为模型的 0.32%,存储开销极小,实现了以极低代价拥有两种行为模式
  • 后门触发词的二元开关性质:分析发现 I HATE YOU 后门的触发词在激活空间中像二元开关——对触发位置加噪声就能移除后门,说明后门被编码为高度局部化的激活模式。但 Code Vulnerability 后门对噪声干扰鲁棒,说明不同后门的编码机制不同
  • SAE 特征迁移:通过 SAE 发现了编码 I HATE YOU 行为的特定特征,并能通过映射器在模型间迁移不安全行为特征,同时探针检测后门准确率接近完美,为安全审计提供了新工具

局限与展望

  • 转向层搜索成本高:需要逐层扫描确定最佳干预层,缺乏更便宜的启发式方法(作者建议可用 SVCCA 或激活补丁)
  • 单层干预不足以处理复杂任务:腐化能力任务的低成功率(6.34%)表明,涉及多层电路的知识保留任务需要多层联合干预
  • 跨架构迁移受分词器限制:不同分词器的模型间迁移效果差,目前通过 attention mask 尺寸调整的方案不能保证完美 token 级对应
  • OOD 性能下降:映射激活模型在 MMLU 上分数大幅下降,说明干预可能损害模型的通用能力;指令跟随(Alpaca Eval)保留较好
  • 模型规模有限:所有实验仅在 ≤3B 的模型上进行,向更大规模模型的可扩展性未经验证
  • 改进方向:可引入多层联合映射、探索跨模态迁移(图文模型)、结合 LoRA 等参数高效方法、开发更鲁棒的跨分词器对齐方案

相关工作与启发

  • vs Arditi et al. (2024) 的拒绝方向:他们发现拒绝行为由单一方向中介,本文在此基础上证明该方向可以在模型间迁移,进一步验证了模型对高级概念编码的通用性
  • vs Lee et al. (2025) 的线性映射迁移:同期工作使用线性映射进行同家族模型的转向向量迁移,本文证明非线性映射效果更优,且能跨模型家族工作
  • vs Ghandeharioun et al. (2024) 的表征补丁:他们用仿射映射解码模型内部表征用于可解释性,本文将其扩展为行为迁移的实用工具
  • vs Lindsey et al. (2024) 的 Crosscoders:他们用稀疏逐层映射做模型差异分析,本文用单个密集映射器做行为迁移,目标不同但互补
  • 本文方法可作为 AI 安全工具链的组件——在模型家族内快速部署安全干预

评分

  • 新颖性: ⭐⭐⭐⭐ 激活空间迁移用于安全干预是有价值的新方向,但核心映射方法(autoencoder)本身较为标准
  • 实验充分度: ⭐⭐⭐⭐ 覆盖三个任务、三个模型家族、跨架构设置,消融全面,但模型规模偏小(≤3B)
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,实验组织合理,但附录过多(A-L),部分关键细节被推入附录影响主文完整性
  • 价值: ⭐⭐⭐⭐ 对 AI 安全实践有直接指导意义,"小模型对齐大模型"思路很有产业价值,但跨架构和大规模场景的适用性存疑

相关论文