Alignment of Large Language Models with Constrained Learning¶

会议: NeurIPS 2025
arXiv: 2505.19387
代码: 无
领域: LLM对齐 / 优化理论
关键词: 约束对齐, 拉格朗日对偶, LLM策略搜索, 原对偶方法, 安全约束

一句话总结¶

将LLM对齐形式化为约束优化问题（最大化主要奖励同时满足次要效用约束如安全性），提出基于拉格朗日对偶的迭代方法交替更新LLM策略和对偶变量，理论上刻画了分布空间与LLM参数空间之间的原对偶间隙和最优性间隙，证明方法可以找到近最优约束LLM策略。

背景与动机¶

LLM对齐不仅要最大化有用性（helpfulness），还必须满足安全性、无害性等硬约束。这是一个天然的约束优化问题，但现有方法处理不佳：基于拉格朗日的迭代原对偶方法常常不收敛（振荡），非迭代的对偶方法虽然稳定但在LLM参数空间中无法达到最优（分布空间最优解不一定能用有限参数的LLM实现）。缺乏一个既有理论保证又能在实际LLM参数空间中有效工作的约束对齐框架。

核心问题¶

如何在有约束条件（如安全性）的LLM对齐中，设计一个有理论最优性保证的策略搜索方法？需要解决的关键矛盾：分布空间中的理想最优解 vs LLM有限参数化能力之间的间隙。

方法详解¶

整体框架¶

将约束对齐表述为：\(\max_\pi J(\pi)\) s.t. \(C_i(\pi) \geq b_i\)，其中\(J\)是主要奖励目标，\(C_i\)是次要效用约束。通过拉格朗日对偶将其转化为无约束问题：交替执行拉格朗日最大化（更新LLM策略\(\pi\)）和对偶下降（更新乘子\(\lambda\)）。

关键设计¶

迭代对偶方法: 与非迭代方法不同，本文的迭代方案在每步更新中利用当前对偶变量求解近似最优策略，然后用约束违反量更新对偶变量。理论证明当对偶变量接近最优时，学到的LLM策略在目标和约束上都接近最优。
原对偶间隙分析: 刻画了分布空间中的原始值（理想最优）和LLM参数空间中的对偶值之间的间隙。间隙取决于LLM的参数化能力——参数化越强，间隙越小。
最优性间隙量化: 在近最优对偶变量处，证明了学到的LLM策略的最优性间隙上界，误差仅来自LLM参数化间隙。

损失函数 / 训练策略¶

拉格朗日目标：\(L(\pi, \lambda) = J(\pi) + \sum_i \lambda_i (C_i(\pi) - b_i)\)。策略更新使用标准RLHF/DPO方法最大化拉格朗日。对偶变量通过\(\lambda_{t+1} = [\lambda_t - \eta(C_i(\pi_t) - b_i)]_+\)更新。

实验关键数据¶

数据集	指标	本文	无约束基线	说明
PKU-SafeRLHF	安全约束满足率	高	低	在保持有用性的同时满足安全约束
Anthropic HH-RLHF	有用性-无害性折衷	帕累托最优	单目标	理论保证的约束满足

消融实验要点¶

迭代方法 vs 非迭代方法：迭代方法在约束满足和目标优化上均更优
对偶变量收敛性验证：实验确认对偶下降收敛，策略也相应收敛
参数化间隙的实际影响：在足够大的LLM上，参数化间隙可忽略

亮点¶

理论严格: 首次在LLM约束对齐中给出完整的原对偶间隙和最优性间隙分析
实用设计: 迭代原对偶方法可以直接作为现有RLHF/DPO管线的包装器使用
连接优化理论与LLM对齐: 将经典约束优化理论恰当地应用到LLM策略搜索中

局限性 / 可改进方向¶

理论依赖于LLM参数化间隙的大小，对于参数化能力有限的小模型可能间隙较大
只考虑了有限数量的硬约束，实际场景可能有大量软约束
对偶下降的步长选择需要调节
论文主要是理论贡献，实验规模和多样性有限

与相关工作的对比¶

与Safe RLHF相比，本文提供了更强的理论最优性保证。与Reward-Constrained RL相比，本文的分析更精确地刻画了LLM参数化对最优性的影响。与DPO等非约束方法相比，本文显式处理约束而非依赖事后过滤。

启发与关联¶

为约束LLM对齐提供了理论基础——后续工作可以在此框架上研究更复杂的约束（如多利益相关者约束）
参数化间隙的概念对理解LLM能力边界有理论意义

评分¶

新颖性: ⭐⭐⭐⭐ 理论驱动的约束对齐，填补了理论空白
实验充分度: ⭐⭐⭐ 两个标准安全基准，但实验规模有限
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，51页含充分证明
价值: ⭐⭐⭐⭐ 为约束对齐领域提供了坚实的理论基础