跳转至

Activation Steering for Masked Diffusion Language Models

会议: ICLR 2026
arXiv: 2512.24143
代码: 有
领域: AI安全 / 扩散模型
关键词: activation steering, masked diffusion LM, safety, refusal direction, LLaDA

一句话总结

首次将激活引导(activation steering)应用于 Masked Diffusion 语言模型(MDLM),发现 MDLM 的拒绝行为也受单一低维方向控制,通过在去噪过程中全局投影可完全绕过安全对齐,且与自回归模型不同,有效方向可从指令前的 token 中提取——反映了扩散模型的非因果并行处理特性。

研究背景与动机

  1. 领域现状:激活引导在自回归 LLM 中已被广泛研究(Arditi et al. 的拒绝方向消除等),但 MDLM(如 LLaDA)生成机制完全不同——通过迭代去 mask 而非逐 token 生成。MDLM 是否存在类似的低维控制方向完全未知。
  2. 现有痛点:(1) MDLM 的推理时控制方法仅有采样级引导(如 DIJA),没有表示级控制;(2) 自回归的 GCG、PAIR 等越狱攻击对扩散模型效果差——因为模型架构和生成方式不同。
  3. 核心矛盾:MDLM 采用非因果注意力(所有 token 互相可见),这与自回归的因果注意力完全不同——自回归中只有最后一个 token 能看到完整输入,但 MDLM 中每个 token 都能。激活引导的位置和时间选择需要重新理解。
  4. 本文要解决什么? MDLM 是否存在拒绝方向?在扩散的哪个阶段、哪些层、哪些 token 位置引导最有效?
  5. 切入角度:直接适配 Arditi et al. 的对比方向提取方法到 MDLM,但探索 MDLM 特有的 token 位置(含指令前 token)和去噪步骤。
  6. 核心idea一句话:将自回归 LLM 的激活引导原语移植到 MDLM,揭示扩散特有的表示特性。

方法详解

整体框架

三步:(1) 从对比 prompt 集(有害 vs 无害)中提取候选引导方向(差异均值的归一化向量);(2) 在验证集上选择最佳(层, token 位置)组合;(3) 生成时在反向扩散的每一步、每一层、每个 token 位置上投影掉该方向。

关键设计

  1. 方向提取:
  2. 做什么:从 128 个有害 + 128 个无害 prompt 的激活差异中提取引导方向
  3. 核心思路:\(v_i^{(\ell)} = \text{normalize}(\mu_{+,i}^{(\ell)} - \mu_{-,i}^{(\ell)})\),对每个(层 \(\ell\), token 位置 \(i\))计算一个方向。在验证集上 sweep 所有候选选最佳
  4. 关键发现:有效方向不仅可从 post-instruction token 提取(如自回归中),还可从 pre-instruction token 提取——因为 MDLM 的非因果注意力使所有 token 都包含完整输入信息

  5. 方向应用(投影法):

  6. 做什么:在反向扩散的每一步中将所有激活投影到引导方向的正交子空间
  7. 公式:\(\tilde{h}_i^{(\ell)} = h_i^{(\ell)} - \langle h_i^{(\ell)}, v \rangle v\)
  8. 全局应用:所有层 × 所有 token 位置 × 所有去噪步骤
  9. 不修改扩散采样过程本身

  10. 扩散特有的消融发现:

  11. 早期去噪步骤影响最大——第一个扩散 block 贡献不成比例地大
  12. 中到晚期 transformer 层最有效
  13. 热力图显示 LLaDA-8B 和 LLaDA-1.5 的灵敏区域高度一致
  14. MMaDA 模式不同(更广泛退化,无明确局部化)

损失函数 / 训练策略

无需训练(training-free)。仅需一次前向传播提取方向,推理时全局投影。

实验关键数据

主实验(JailbreakBench 100 个有害指令)

方法 LLaDA-8B Refusal↓ LLaDA-8B Safety↓ LLaDA-1.5 Refusal↓
Direct ~98% ~100% ~98%
GCG (suffix优化) ~95% ~98% -
PAIR (自动越狱) ~70% ~85% -
Slice (前缀初始化) ~50% ~65% -
Activation Steering (post) 0-16% 16-25% ~低
Activation Steering (pre) ~类似 ~类似 ~类似

消融发现

消融维度 发现
Token 位置 Pre-instruction 和 post-instruction 同样有效
去噪步骤 早期步骤影响最大(第一个 block 贡献最大)
Transformer 层 中到晚期层最敏感
跨语言迁移 英/中之间强迁移
跨架构迁移 MDLM→AR 迁移失败

关键发现

  • MDLM 的拒绝行为确实受单一低维方向控制——与自回归 LLM 类似的现象在完全不同的架构中再现
  • Pre-instruction token 可以提取有效方向——这是自回归模型中不可能的(因果注意力限制),凸显了扩散模型的非因果特性
  • GCG 对 MDLM 几乎无效——为 MDLM 设计的攻击需要新方法
  • 跨架构迁移失败说明安全表示是架构依赖的——同一个概念在 AR 和 MDLM 中的编码方式不同
  • 早期去噪步骤最关键——与 A2D 论文的发现一致,扩散模型的"浅层对齐"问题

亮点与洞察

  • 架构间的安全表示对比:同样的"拒绝"概念在 AR 和 MDLM 中编码不同,但在同一 MDLM 的中英文间共享——说明架构比语言更影响表示结构
  • 非因果注意力的安全含义:MDLM 中每个 token 都能看到完整输入,这使得从任何位置都能提取安全方向——也意味着攻击面更广
  • 与 A2D 形成呼应:A2D 从防御角度做 token 级 [EOS] 对齐,本文从攻击角度做激活引导——共同揭示了 MDLM 安全的新前沿

局限性 / 可改进方向

  • 仅以安全拒绝为案例研究,其他控制目标(如毒性、风格)未验证
  • 对 MMaDA 的引导模式与 LLaDA 不同,说明方法可能不完全通用
  • 全局投影可能影响 MDLM 在正常任务上的性能——utility 评估不充分
  • 方向提取需要有害 prompt 数据集,实际部署中可能受限

相关工作与启发

  • vs Arditi et al. (AR LLM 拒绝方向): 本文将其方法论移植到 MDLM,发现类似现象但有扩散特有的结构差异
  • vs A2D / DIJA: A2D 做防御、DIJA 做攻击——都在 token/采样级操作;本文在表示级操作,更轻量
  • vs AlphaSteer: AlphaSteer 用零空间约束精确引导 AR LLM;本文揭示了 MDLM 中类似的低维控制结构

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将激活引导应用到 MDLM,揭示扩散特有的表示特性
  • 实验充分度: ⭐⭐⭐⭐⭐ 3 个 MDLM + 跨架构迁移、详细消融(层/token/步骤)
  • 写作质量: ⭐⭐⭐⭐ 方法清晰,消融图示丰富
  • 价值: ⭐⭐⭐⭐⭐ 为 MDLM 安全研究开辟了新方向