跳转至

Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models

会议: ACL 2025
arXiv: 2507.01915
代码: 无
领域: LLM对齐
关键词: 多目标对齐, RLHF, 梯度下降, Pareto最优, 偏好优化

一句话总结

提出GAPO,一种基于梯度自适应缩放的多目标策略优化方法,利用多梯度下降算法(MGDA)结合梯度归一化,平衡LLM在帮助性和无害性等冲突目标间的权衡,并通过P-GAPO支持用户偏好驱动的Pareto前沿生成。

研究背景与动机

  1. 领域现状: RLHF是对齐LLM与人类偏好的主流方法。但单一reward函数难以涵盖多样化人类偏好(帮助性、无害性、诚实性),近期开始引入多目标RLHF框架。
  2. 现有痛点: (1) Safe RLHF使用PPO-Lagrangian处理约束优化,复杂且不稳定;(2) MORLHF使用线性加权组合多奖励,本质局限性使其无法充分探索Pareto最优解;(3) 冲突目标导致过度安全行为(无害但无用)。
  3. 核心矛盾: 多目标RLHF中目标间的inherent冲突——优化一个目标往往牺牲另一个,线性加权无法有效管理梯度尺度差异。
  4. 本文要解决什么: 设计能自适应平衡多冲突目标的对齐算法,避免优化不平衡问题。
  5. 切入角度: 从多目标优化理论出发,使用MGDA确定更新方向,并通过梯度归一化消除不同目标间梯度尺度差异。
  6. 核心idea一句话: 用梯度自适应缩放修正MGDA的不平衡问题,使更新方向自动关注优化不足的目标。

方法详解

整体框架

GAPO将LLM对齐建模为多目标优化问题,不同于线性加权奖励的MORLHF方法。使用PPO作为基础RL算法,但用MGDA确定更新方向,并引入梯度缩放机制平衡各目标的优化进度。

关键设计

  1. MGDA基础: 求解 min_{α} ‖Σα_i∇J_i‖²,s.t. Σα_i=1, α_i≥0,得到同时改善所有目标的Pareto下降方向。但MGDA会导致优化进度一致(Theorem 3.1),当某些目标已接近最优时限制其他目标的优化空间。

  2. 梯度自适应缩放(Gradient Rescaling): 将原始梯度除以其L2范数的p次方:∇^N J_i = ∇J_i / ‖∇J_i‖²^p。p=1为标准归一化,p=2使重缩放梯度长度为原始梯度长度的倒数。消除梯度尺度差异后重新求解MGDA(Problem 7)。Theorem 3.3证明此时各目标的优化量与其梯度范数的p次方成比例,即梯度越大(优化需求越大)的目标获得更多优化。

  3. P-GAPO (偏好版GAPO): 引入用户偏好向量 λ=(λ_r, λ_c),先对梯度做p=1归一化,再用偏好加权求和作为更新方向:θ' = θ + η·Σλ_i·∇^N J_i。通过不同λ值训练多个模型覆盖Pareto前沿。

损失函数 / 训练策略

基于PPO优化KL正则化的多目标奖励。帮助性目标使用reward model R_ϕ,无害性目标使用cost model的负值 -C_ψ(beaver-7b-v1.0系列)。使用Mistral-7B-SFT作为基础模型。仅使用最后一层参数的梯度来降低空间复杂度(从mn降至近似)。P-GAPO使用λ_r ∈ {0.2, 0.4, 0.6, 0.8}。

实验关键数据

主实验

Mistral-7B在PKU-SafeRLHF和HH-RLHF测试集上的结果:

方法 PKU Helpful↑ PKU Harmless↑ PKU Avg↑ HH Helpful↑ HH Harmless↑ HH Avg↑
SFT 2.33 1.78 2.06 5.75 5.25 5.50
PPO-H 9.52 -11.77 -1.12 9.44 -5.02 2.21
PPO-S -7.21 13.05 2.92 -2.53 13.07 5.27
Safe RLHF 5.02 1.83 3.42 7.62 5.70 6.66
Fast RL 6.93 6.08 6.50 12.37 8.54 10.45
MGDA 7.34 5.94 6.64 10.90 8.22 9.56
GAPO p=1 7.48 7.92 7.70 12.56 9.82 11.19
GAPO p=2 7.67 6.81 7.24 12.87 9.58 11.23

消融实验

不同方法的无害响应比例(PKU-SafeRLHF):

方法 Harmless.ratio
PPO-H 38.88%
PPO-S 99.48%
Safe RLHF 68.35%
MGDA 79.64%
GAPO p=1 83.82%
GAPO p=2 82.19%

关键发现

  • GAPO p=1在Avg指标上一致最优,在帮助性和无害性上均达到高水平,无需牺牲任何一方
  • 单目标PPO表现极端:PPO-H帮助性最高但无害性极差,PPO-S反之。验证了多目标对齐的必要性
  • Safe RLHF的PPO-Lagrangian方法在基础模型已有一定安全性时无法继续优化无害性——Lagrangian乘子快速降低
  • GPT-4o评估确认GAPO p=1在帮助性和无害性上均显著优于SFT基线
  • P-GAPO在均衡偏好(λ_r∈{0.4,0.6})时优于MORLHF,但极端偏好下MORLHF稍好(因其直接优化主目标)
  • P-GAPO和MORLHF的Pareto前沿均完全支配Rewarded Soups(RS),说明简单合并单目标模型权重效果有限

亮点与洞察

  • MGDA的不平衡问题分析深刻(Theorem 3.1),梯度缩放的修正方案理论优美且实现简单
  • p值的选择提供灵活性:p=1标准归一化在GPT-4o评估中明显更优,p=2在纯reward评估中略好
  • P-GAPO通过梯度归一化+偏好加权的简单组合就能生成良好的Pareto前沿
  • 仅用最后一层梯度近似全梯度的实践技巧降低了MGDA在LLM中的计算开销
  • Safe RLHF在模型已有一定安全性时失效的分析很有洞察力,指出了约束优化的局限
  • PPO-H和PPO-S的极端表现(一个维度极好另一个极差)直观展示了多目标冲突的严重性
  • Theorem 3.3的结论形式优美:优化量与梯度L2范数的p次方成正比,意味着更需优化的目标自动获得更多资源
  • Rewarded Soups被完全支配的结果表明,权重空间的线性插值过于粗糙

局限性 / 可改进方向

  • 仅在Mistral-7B上验证,不同LLM的初始能力差异可能影响优化平衡
  • 缺乏评估LLM响应是否准确反映用户偏好权重的方法
  • 目前仅考虑帮助性和无害性两个目标,三目标以上的场景(加入诚实性、简洁性等)未探索
  • 仅用最后一层梯度的近似精度缺乏理论保证,可能在深层网络中丢失信息
  • P-GAPO需要对每个偏好向量训练一个模型,开销随偏好粒度线性增长
  • 未与DPO系列的多目标方法(如MODPO)对比

相关工作与启发

  • 与多任务学习中的梯度冲突解决方法(GradNorm, PCGrad, Nash-MTL, CAGrad等)思路相通,但首次系统应用于LLM对齐
  • Safe RLHF的约束优化和MORLHF的线性加权都有理论局限性,GAPO提供了第三条路径
  • P-GAPO的偏好Pareto前沿为个性化对齐提供了基础设施
  • Rewarded Soups的权重插值方法被证明效果有限,梯度级别的干预更有效

评分

  • 新颖性: ⭐⭐⭐⭐ 将MGDA+梯度缩放引入LLM多目标对齐,理论贡献扎实
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集、多种基线、GPT-4o评估、Pareto前沿分析
  • 写作质量: ⭐⭐⭐⭐ 理论推导和实验衔接好,定理陈述规范
  • 价值: ⭐⭐⭐⭐ 对LLM安全对齐有实际指导意义,方法可扩展到更多目标