Activation Steering for Masked Diffusion Language Models¶

会议: ICLR 2026
arXiv: 2512.24143
代码: 有
领域: AI安全 / 扩散模型
关键词: activation steering, masked diffusion LM, safety, refusal direction, LLaDA

一句话总结¶

首次将激活引导（activation steering）应用于 Masked Diffusion 语言模型（MDLM），发现 MDLM 的拒绝行为也受单一低维方向控制，通过在去噪过程中全局投影可完全绕过安全对齐，且与自回归模型不同，有效方向可从指令前的 token 中提取——反映了扩散模型的非因果并行处理特性。

研究背景与动机¶

领域现状：激活引导在自回归 LLM 中已被广泛研究（Arditi et al. 的拒绝方向消除等），但 MDLM（如 LLaDA）生成机制完全不同——通过迭代去 mask 而非逐 token 生成。MDLM 是否存在类似的低维控制方向完全未知。
现有痛点：(1) MDLM 的推理时控制方法仅有采样级引导（如 DIJA），没有表示级控制；(2) 自回归的 GCG、PAIR 等越狱攻击对扩散模型效果差——因为模型架构和生成方式不同。
核心矛盾：MDLM 采用非因果注意力（所有 token 互相可见），这与自回归的因果注意力完全不同——自回归中只有最后一个 token 能看到完整输入，但 MDLM 中每个 token 都能。激活引导的位置和时间选择需要重新理解。
本文要解决什么？ MDLM 是否存在拒绝方向？在扩散的哪个阶段、哪些层、哪些 token 位置引导最有效？
切入角度：直接适配 Arditi et al. 的对比方向提取方法到 MDLM，但探索 MDLM 特有的 token 位置（含指令前 token）和去噪步骤。
核心idea一句话：将自回归 LLM 的激活引导原语移植到 MDLM，揭示扩散特有的表示特性。

方法详解¶

整体框架¶

三步：(1) 从对比 prompt 集（有害 vs 无害）中提取候选引导方向（差异均值的归一化向量）；(2) 在验证集上选择最佳（层, token 位置）组合；(3) 生成时在反向扩散的每一步、每一层、每个 token 位置上投影掉该方向。

关键设计¶

方向提取:
做什么：从 128 个有害 + 128 个无害 prompt 的激活差异中提取引导方向
核心思路：\(v_i^{(\ell)} = \text{normalize}(\mu_{+,i}^{(\ell)} - \mu_{-,i}^{(\ell)})\)，对每个（层 \(\ell\), token 位置 \(i\)）计算一个方向。在验证集上 sweep 所有候选选最佳
关键发现：有效方向不仅可从 post-instruction token 提取（如自回归中），还可从 pre-instruction token 提取——因为 MDLM 的非因果注意力使所有 token 都包含完整输入信息
方向应用（投影法）:
做什么：在反向扩散的每一步中将所有激活投影到引导方向的正交子空间
公式：\(\tilde{h}_i^{(\ell)} = h_i^{(\ell)} - \langle h_i^{(\ell)}, v \rangle v\)
全局应用：所有层 × 所有 token 位置 × 所有去噪步骤
不修改扩散采样过程本身
扩散特有的消融发现:
早期去噪步骤影响最大——第一个扩散 block 贡献不成比例地大
中到晚期 transformer 层最有效
热力图显示 LLaDA-8B 和 LLaDA-1.5 的灵敏区域高度一致
MMaDA 模式不同（更广泛退化，无明确局部化）

损失函数 / 训练策略¶

无需训练（training-free）。仅需一次前向传播提取方向，推理时全局投影。

实验关键数据¶

主实验（JailbreakBench 100 个有害指令）¶

方法	LLaDA-8B Refusal↓	LLaDA-8B Safety↓	LLaDA-1.5 Refusal↓
Direct	~98%	~100%	~98%
GCG (suffix优化)	~95%	~98%	-
PAIR (自动越狱)	~70%	~85%	-
Slice (前缀初始化)	~50%	~65%	-
Activation Steering (post)	0-16%	16-25%	~低
Activation Steering (pre)	~类似	~类似	~类似

消融发现¶

消融维度	发现
Token 位置	Pre-instruction 和 post-instruction 同样有效
去噪步骤	早期步骤影响最大（第一个 block 贡献最大）
Transformer 层	中到晚期层最敏感
跨语言迁移	英/中之间强迁移
跨架构迁移	MDLM→AR 迁移失败

关键发现¶

MDLM 的拒绝行为确实受单一低维方向控制——与自回归 LLM 类似的现象在完全不同的架构中再现
Pre-instruction token 可以提取有效方向——这是自回归模型中不可能的（因果注意力限制），凸显了扩散模型的非因果特性
GCG 对 MDLM 几乎无效——为 MDLM 设计的攻击需要新方法
跨架构迁移失败说明安全表示是架构依赖的——同一个概念在 AR 和 MDLM 中的编码方式不同
早期去噪步骤最关键——与 A2D 论文的发现一致，扩散模型的"浅层对齐"问题

亮点与洞察¶

架构间的安全表示对比：同样的"拒绝"概念在 AR 和 MDLM 中编码不同，但在同一 MDLM 的中英文间共享——说明架构比语言更影响表示结构
非因果注意力的安全含义：MDLM 中每个 token 都能看到完整输入，这使得从任何位置都能提取安全方向——也意味着攻击面更广
与 A2D 形成呼应：A2D 从防御角度做 token 级 [EOS] 对齐，本文从攻击角度做激活引导——共同揭示了 MDLM 安全的新前沿

局限性 / 可改进方向¶

仅以安全拒绝为案例研究，其他控制目标（如毒性、风格）未验证
对 MMaDA 的引导模式与 LLaDA 不同，说明方法可能不完全通用
全局投影可能影响 MDLM 在正常任务上的性能——utility 评估不充分
方向提取需要有害 prompt 数据集，实际部署中可能受限

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将激活引导应用到 MDLM，揭示扩散特有的表示特性
实验充分度: ⭐⭐⭐⭐⭐ 3 个 MDLM + 跨架构迁移、详细消融（层/token/步骤）
写作质量: ⭐⭐⭐⭐ 方法清晰，消融图示丰富
价值: ⭐⭐⭐⭐⭐ 为 MDLM 安全研究开辟了新方向