跳转至

LLM Safety Alignment is Divergence Estimation in Disguise

会议: NeurIPS 2025
arXiv: 2502.00657
代码: 无
领域: 对齐RLHF
关键词: safety alignment, divergence estimation, DPO, KTO, KLDO, representation separation

一句话总结

建立统一理论框架证明 RLHF/DPO/KTO/BCO 等对齐方法本质上是在估计安全分布 \(\mathcal{D}^+\) 与不安全分布 \(\mathcal{D}^-\) 之间的散度,由此解释了对齐后隐空间分离现象,并提出基于 KL 散度的 KLDO 对齐方法,在 5 个模型上实现最佳鲁棒性。

研究背景与动机

  1. 领域现状:LLM 安全对齐的主流方法包括 RLHF、DPO、KTO、BCO 等,但各方法之间缺乏统一的理论解释。已有研究观察到对齐后模型的隐空间中,安全提示和有害提示会形成明显分离的聚类。
  2. 现有痛点:这种"分离效应"被用于攻击/防御策略设计,但其根本原因不清楚——是偶然现象还是对齐的本质结果?不同对齐方法之间的理论联系也缺少系统分析。
  3. 核心矛盾:现有对齐方法都在做"让模型偏好安全响应"这件事,但缺乏统一视角来理解它们的共同机制、解释分离现象、以及指导新方法设计。
  4. 本文要解决什么:① 为什么对齐会导致隐空间分离?② 不同对齐方法有何统一的数学本质?③ 能否基于这一理解设计更好的对齐方法?
  5. 切入角度:将 alignment loss 重新解释为散度估计的变分问题——不同散度(TV、JS、KL)对应不同的对齐方法。
  6. 核心 idea 一句话:对齐 ≈ 散度估计,分离是散度估计的自然结果,KL 散度对大分布偏移最敏感因此最适合安全对齐。

方法详解

整体框架

论文基于变分散度估计的数学框架,将对齐方法的损失函数与 \(\mathcal{D}^+\)(安全/偏好分布)和 \(\mathcal{D}^-\)(不安全/非偏好分布)之间的散度估计联系起来。定义 \(r_\theta(x,y) = \beta\log(\pi_\theta(y|x)/\pi_{ref}(y|x))\) 为隐式奖励。

关键设计

  1. 散度估计统一视角(Theorem 4.1):
  2. 做什么:证明各对齐方法在最优解处对应特定散度估计
  3. 核心思路:\(\mathcal{L}_{KTO}(\theta^*) = -\mathbb{D}_{TV}(\mathcal{D}^+\|\mathcal{D}^-) + 1\)\(\mathcal{L}_{BCO}(\theta^*) = \ln 4 - 2\cdot\mathbb{D}_{JS}\)\(\mathcal{L}_{DPO}(\theta^*) = \Omega(-\mathbb{D}_{TV})\)
  4. 设计动机:通过散度的数学性质(凸性、敏感度)来比较各方法的优劣

  5. DPO 饱和问题分析:

  6. 做什么:揭示 DPO 隐式散度在大偏移区域饱和
  7. 核心思路:\(\mathbb{D}_{DPO}\) 呈 S 形曲线,两端饱和,在安全/不安全分布间大偏移时敏感度急剧下降
  8. 设计动机:从根本上解释 DPO 在安全对齐中表现较差的原因

  9. KLDO 方法(KL-Divergence Optimizer):

  10. 做什么:基于 Donsker-Varadhan 变分表示设计新对齐损失
  11. 核心思路:\(\mathcal{L}_{KLDO}(\theta) = -\mathbb{E}_{\mathcal{D}^+} r_\theta + \ln\mathbb{E}_{\mathcal{D}^-} e^{r_\theta}\),使用 MINE 风格移动平均处理梯度偏差
  12. 设计动机:KL 散度对大分布偏移最敏感,是安全对齐最优选择

  13. 对齐一致性与分离定理(Theorem 4.3 & 4.5):

  14. 做什么:证明对齐一致方法能完美恢复安全标签,且 CR 数据优于 Pref
  15. 核心思路:最优策略 \(\pi_{\theta^*}(y|x) = Z(x)^{-1}\cdot\pi_{ref}(y|x)\cdot h(R(x,y))\)\(h\) 非递减非常数。\(p^{CR}(z=z_x|x,\theta^*) \geq p^{Pref}(z=z_x|x,\theta^*) > 0.5\)

损失函数 / 训练策略

通用 FDO 框架:\(\mathcal{L}_{FDO(f,g)}(\theta) = -\mathbb{E}_{\mathcal{D}^+}g(r_\theta) + \mathbb{E}_{\mathcal{D}^-}f^*\circ g(r_\theta)\),可恢复 KTO、BCO、KLDO 作为特例。

实验关键数据

主实验(Bhattacharyya 距离与鲁棒性)

模型 方法 \(D_B\) AdvBench ASR↓ SALAD ASR↓ ToxiGen↑ 总分↑
Qwen2.5-1.5B DPO 4.10 4.62% 59.13% 45.91% 5.59
Qwen2.5-1.5B KTO 4.25 0.96% 56.90% 53.48% 41.83
Qwen2.5-1.5B BCO 11.77 0.58% 45.42% 53.83% 76.01
Qwen2.5-1.5B KLDO 9.19 0.19% 49.78% 56.97% 92.04

KLDO 在所有 5 个模型上的平均排名最佳(1.4),BCO 第二(1.6),DPO 最差(3.8)。

消融实验(CR vs Pref 数据)

数据类型 Qwen \(D_B\) Qwen 总鲁棒 LLaMA3.2 \(D_B\) LLaMA3.2 总鲁棒
CR 9.19 92.04 5.75 95.02
Pref 3.34 60.76 4.53 31.10

关键发现

  • 分离度与鲁棒性强相关\(D_B\) 与 SALAD ASR 的 Pearson 相关系数 \(r=-0.82\)\(p<0.001\)),与总鲁棒性 \(r=0.70\)
  • 散度敏感度排序:DPO < TV(KTO) < JS(BCO) ≈ KL(KLDO)
  • KLDO 兼顾安全与效用:在 AlpacaEval 和 MT-Bench 上不牺牲有用性

亮点与洞察

  • "对齐=散度估计"的统一视角:将看似不同的 DPO/KTO/BCO 统一在散度估计框架下,未来设计新对齐方法可直接从选择散度出发
  • DPO 饱和问题的理论解释:S 形散度曲线在大偏移区域饱和,根本解释了 DPO 安全对齐表现不佳的原因
  • Bhattacharyya 距离作为安全代理指标:可计算的隐空间度量与实际攻击成功率高度相关

局限性 / 可改进方向

  • DPO 对齐一致性未严格证明,散度缺乏闭式解
  • 实验模型规模较小(最大 7B),未在更大模型上验证
  • KLDO 梯度的移动平均估计器引入额外超参数
  • CR 数据构造成本较高
  • FDO 框架中最优散度选择未系统探索

相关工作与启发

  • vs DPO: DPO 散度在大偏移区域饱和,理论上不适合安全对齐,KLDO 用 KL 散度保持高灵敏度
  • vs KTO: KTO 对应 TV 散度,\(h\) 函数离散,无法捕捉细粒度安全程度差异
  • vs representation engineering: 它们利用分离效应做攻防,本文从理论上解释了分离的来源

评分

  • 新颖性: ⭐⭐⭐⭐⭐ “对齐=散度估计”是深刻的理论洞察
  • 实验充分度: ⭐⭐⭐⭐ 多模型+多对齐方法验证
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨清晰
  • 价值: ⭐⭐⭐⭐⭐ 对理解和设计对齐方法有重要理论贡献,KLDO 实用性强