Mitigating the Safety Alignment Tax with Null-Space Constrained Policy Optimization¶

会议: ICLR 2026
arXiv: 2512.11391
代码: https://github.com/ivanniu/NSPO
领域: 对齐RLHF
关键词: Safety Alignment, Null Space, 策略优化, Alignment Tax, 梯度投影

一句话总结¶

提出 NSPO，将安全对齐的策略梯度投影到通用任务表征的零空间中，从几何层面保证安全优化不损害通用能力，仅用 40% 安全数据即在 7 个安全 benchmark 上达到 SOTA，同时在数学/代码/指令遵循上几乎无性能损失。

研究背景与动机¶

领域现状：LLM 安全对齐（拒绝有害请求、遵守伦理规范）通常通过 RL（PPO/GRPO/DPO）在安全数据上训练实现。
现有痛点：安全对齐会导致 alignment tax——模型变得过于保守，在数学推理、代码生成等通用任务上性能下降。现有方法（SafeRLHF、W-DOOR、BFPO）将安全和通用能力建模为双目标优化，通过平衡权重或混入大量通用数据来缓解，但没有在训练过程中显式解决两个目标的梯度冲突。
核心矛盾：安全梯度和通用能力梯度方向存在冲突——沿安全梯度更新参数时，会破坏模型已学到的通用任务表征。
本文要解决什么？ 如何在进行安全对齐时，从根本上避免对通用能力的损害？
切入角度：如果参数更新 \(\Delta\) 处于通用任务输入表征 \(K\) 的零空间（\(\Delta K = 0\)），则更新后模型对通用输入的输出保持不变。
核心idea一句话：将安全策略梯度投影到通用任务表征矩阵的零空间中，几何上保证安全更新与通用能力正交。

方法详解¶

整体框架¶

NSPO 基于 GRPO 框架，关键改造是在梯度更新时加入零空间投影。Pipeline：(1) 在通用数据上收集模型中间表征 \(K\)；(2) 对 \(KK^T\) 做 SVD 得到零空间投影矩阵 \(\hat{U}\hat{U}^T\)；(3) 在安全数据上计算 GRPO 梯度后，投影到零空间再更新参数。

关键设计¶

零空间投影矩阵构建:
做什么：从通用数据（常识/数学/代码各采样）提取模型每层线性变换的输入表征 \(K\)，构建投影矩阵
核心思路：\(\{U, \Lambda, U^T\} = \text{SVD}(KK^T)\)，保留对应近零特征值（<5e-4）的特征向量 \(\hat{U}\)，投影矩阵为 \(\hat{U}\hat{U}^T\)
设计动机：直接对 \(K \in \mathbb{R}^{d \times N}\) 求零空间计算量太大（\(N \gg d\)），改用 \(KK^T \in \mathbb{R}^{d \times d}\) 的零空间等价且高效
梯度投影:
做什么：将安全 GRPO 梯度 \(\nabla_W \mathcal{J}\) 投影到零空间得到 \(\nabla_W \mathcal{J}_{\text{NSPO}} = (\nabla_W \mathcal{J}) \cdot \hat{U}\hat{U}^T\)
核心思路：投影后 \(\nabla_W \mathcal{J}_{\text{NSPO}} \cdot K = 0\)，即参数更新不改变模型对通用输入的输出：\((W - \eta \nabla_W \mathcal{J}_{\text{NSPO}})K = WK = V\)
设计动机：从几何层面硬约束安全更新不侵入通用能力子空间，比软约束（KL 正则）更可靠
移除 KL 散度正则:
做什么：去掉 GRPO 中的 \(D_{\text{KL}}[\pi_\theta \| \pi_{\text{ref}}]\) 项
设计动机：KL 正则将策略拉向参考模型（可能不安全），与安全目标冲突；零空间投影已是更好的正则化——既防止过度优化又保证安全目标下降
理论保证:
梯度稳定性：投影是非扩张映射，\(\|\nabla_W \mathcal{J}_{\text{NSPO}}\|_2 \leq \|\nabla_W \mathcal{J}\|_2\)
有效下降方向：投影后的梯度仍是安全目标的有效下降方向，\(\exists \eta > 0: \mathcal{J}(W - \eta \nabla_W \mathcal{J}_{\text{NSPO}}) \leq \mathcal{J}(W)\)

损失函数 / 训练策略¶

GRPO 目标函数 + 零空间投影（去掉 KL 项）。仅使用 PKU-SafeRLHF 的 40% 数据（~11K 样本）训练，无需混入通用任务数据。投影矩阵构建仅需 1000 个通用样本，一次性 SVD 计算后缓存。

实验关键数据¶

主实验¶

安全性能（Llama3-8B-Instruct, ASR% ↓ 越低越好）:

方法	AdvBench	HarmBench	SORRY-Bench	ALERT
Base	1.36	7.50	34.15	3.81
SafeRLHF	14.39	41.34	44.77	13.66
W-DOOR	0.75	2.81	30.46	1.86
BFPO	0.64	4.16	29.73	7.22
NSPO	0.06	0.18	16.81	1.00

通用能力保持（Qwen2.5-7B-Instruct）:

方法	MATH	HumanEval	IFEval	MMLU
Base	高基线	高基线	高基线	高基线
NSPO	~无损失	~无损失	~无损失	~无损失
其他方法	明显下降	明显下降	部分下降	部分下降

消融实验¶

配置	安全性	通用能力	说明
NSPO (完整)	最优	保持	零空间投影+去KL
无投影 (标准GRPO)	改善	下降	安全梯度损害通用能力
Random 投影	差	差	随机方向无法同时满足两个目标
保留 KL 散度	略差	更好	KL 将策略拉向不安全参考模型

关键发现¶

NSPO 仅用 40% 安全数据（~11K 样本）即超越使用全量数据的 baseline
在 Llama3-8B 和 Qwen2.5-7B 上一致有效，说明方法不依赖特定模型架构
零空间投影的额外计算开销极小：SVD 一次性计算 \(O(d^3)\)，训练中投影 \(O(d^3)\) 远小于前向/反向传播 \(O(n^2d + nd^2)\)
投影矩阵来源的通用数据只需 1000 样本，数据效率极高

亮点与洞察¶

几何视角解决 alignment tax：不再用软约束（KL 正则、混合数据）缓解，而是用硬约束（零空间投影）从根本上消除安全梯度对通用能力的干扰。这个思路可迁移到任何"学新能力不忘旧能力"的场景（如持续学习、多任务微调）。
理论证明 descent 方向：投影后梯度仍然是有效下降方向的证明很关键——这排除了"投影太严格导致无法学习"的担忧。
去 KL 反而更好：KL 正则本是防止策略偏离参考模型的标准做法，但在安全对齐中参考模型本身可能不安全，KL 正则反而有害。NSPO 用投影替代 KL 是更合理的选择。

局限性 / 可改进方向¶

零空间维度取决于通用任务表征的秩——如果通用表征覆盖了大部分参数空间，零空间可能很小，限制安全学习的表达能力
仅在安全对齐场景验证，是否能推广到 helpfulness alignment、多任务学习等需进一步探索
特征值阈值 5e-4 是手动设定的，缺乏自适应选择机制
通用能力保持依赖有限的采样数据（1000 样本）是否足以代表全部通用能力分布？

评分¶

新颖性: ⭐⭐⭐⭐⭐ 零空间投影应用于 LLM 安全对齐是全新视角，理论完备
实验充分度: ⭐⭐⭐⭐⭐ 7 安全+7 通用 benchmark，两个模型，多消融
写作质量: ⭐⭐⭐⭐ 理论推导清晰，实验全面
价值: ⭐⭐⭐⭐⭐ 解决了安全对齐领域的核心痛点，方法简洁高效可落地