Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models¶
会议: ACL 2025
arXiv: 2507.01915
代码: 无
领域: LLM对齐
关键词: 多目标对齐, RLHF, 梯度下降, Pareto最优, 偏好优化
一句话总结¶
提出GAPO,一种基于梯度自适应缩放的多目标策略优化方法,利用多梯度下降算法(MGDA)结合梯度归一化,平衡LLM在帮助性和无害性等冲突目标间的权衡,并通过P-GAPO支持用户偏好驱动的Pareto前沿生成。
研究背景与动机¶
- 领域现状: RLHF是对齐LLM与人类偏好的主流方法。但单一reward函数难以涵盖多样化人类偏好(帮助性、无害性、诚实性),近期开始引入多目标RLHF框架。
- 现有痛点: (1) Safe RLHF使用PPO-Lagrangian处理约束优化,复杂且不稳定;(2) MORLHF使用线性加权组合多奖励,本质局限性使其无法充分探索Pareto最优解;(3) 冲突目标导致过度安全行为(无害但无用)。
- 核心矛盾: 多目标RLHF中目标间的inherent冲突——优化一个目标往往牺牲另一个,线性加权无法有效管理梯度尺度差异。
- 本文要解决什么: 设计能自适应平衡多冲突目标的对齐算法,避免优化不平衡问题。
- 切入角度: 从多目标优化理论出发,使用MGDA确定更新方向,并通过梯度归一化消除不同目标间梯度尺度差异。
- 核心idea一句话: 用梯度自适应缩放修正MGDA的不平衡问题,使更新方向自动关注优化不足的目标。
方法详解¶
整体框架¶
GAPO将LLM对齐建模为多目标优化问题,不同于线性加权奖励的MORLHF方法。使用PPO作为基础RL算法,但用MGDA确定更新方向,并引入梯度缩放机制平衡各目标的优化进度。
关键设计¶
-
MGDA基础: 求解 min_{α} ‖Σα_i∇J_i‖²,s.t. Σα_i=1, α_i≥0,得到同时改善所有目标的Pareto下降方向。但MGDA会导致优化进度一致(Theorem 3.1),当某些目标已接近最优时限制其他目标的优化空间。
-
梯度自适应缩放(Gradient Rescaling): 将原始梯度除以其L2范数的p次方:∇^N J_i = ∇J_i / ‖∇J_i‖²^p。p=1为标准归一化,p=2使重缩放梯度长度为原始梯度长度的倒数。消除梯度尺度差异后重新求解MGDA(Problem 7)。Theorem 3.3证明此时各目标的优化量与其梯度范数的p次方成比例,即梯度越大(优化需求越大)的目标获得更多优化。
-
P-GAPO (偏好版GAPO): 引入用户偏好向量 λ=(λ_r, λ_c),先对梯度做p=1归一化,再用偏好加权求和作为更新方向:θ' = θ + η·Σλ_i·∇^N J_i。通过不同λ值训练多个模型覆盖Pareto前沿。
损失函数 / 训练策略¶
基于PPO优化KL正则化的多目标奖励。帮助性目标使用reward model R_ϕ,无害性目标使用cost model的负值 -C_ψ(beaver-7b-v1.0系列)。使用Mistral-7B-SFT作为基础模型。仅使用最后一层参数的梯度来降低空间复杂度(从mn降至近似)。P-GAPO使用λ_r ∈ {0.2, 0.4, 0.6, 0.8}。
实验关键数据¶
主实验¶
Mistral-7B在PKU-SafeRLHF和HH-RLHF测试集上的结果:
| 方法 | PKU Helpful↑ | PKU Harmless↑ | PKU Avg↑ | HH Helpful↑ | HH Harmless↑ | HH Avg↑ |
|---|---|---|---|---|---|---|
| SFT | 2.33 | 1.78 | 2.06 | 5.75 | 5.25 | 5.50 |
| PPO-H | 9.52 | -11.77 | -1.12 | 9.44 | -5.02 | 2.21 |
| PPO-S | -7.21 | 13.05 | 2.92 | -2.53 | 13.07 | 5.27 |
| Safe RLHF | 5.02 | 1.83 | 3.42 | 7.62 | 5.70 | 6.66 |
| Fast RL | 6.93 | 6.08 | 6.50 | 12.37 | 8.54 | 10.45 |
| MGDA | 7.34 | 5.94 | 6.64 | 10.90 | 8.22 | 9.56 |
| GAPO p=1 | 7.48 | 7.92 | 7.70 | 12.56 | 9.82 | 11.19 |
| GAPO p=2 | 7.67 | 6.81 | 7.24 | 12.87 | 9.58 | 11.23 |
消融实验¶
不同方法的无害响应比例(PKU-SafeRLHF):
| 方法 | Harmless.ratio |
|---|---|
| PPO-H | 38.88% |
| PPO-S | 99.48% |
| Safe RLHF | 68.35% |
| MGDA | 79.64% |
| GAPO p=1 | 83.82% |
| GAPO p=2 | 82.19% |
关键发现¶
- GAPO p=1在Avg指标上一致最优,在帮助性和无害性上均达到高水平,无需牺牲任何一方
- 单目标PPO表现极端:PPO-H帮助性最高但无害性极差,PPO-S反之。验证了多目标对齐的必要性
- Safe RLHF的PPO-Lagrangian方法在基础模型已有一定安全性时无法继续优化无害性——Lagrangian乘子快速降低
- GPT-4o评估确认GAPO p=1在帮助性和无害性上均显著优于SFT基线
- P-GAPO在均衡偏好(λ_r∈{0.4,0.6})时优于MORLHF,但极端偏好下MORLHF稍好(因其直接优化主目标)
- P-GAPO和MORLHF的Pareto前沿均完全支配Rewarded Soups(RS),说明简单合并单目标模型权重效果有限
亮点与洞察¶
- MGDA的不平衡问题分析深刻(Theorem 3.1),梯度缩放的修正方案理论优美且实现简单
- p值的选择提供灵活性:p=1标准归一化在GPT-4o评估中明显更优,p=2在纯reward评估中略好
- P-GAPO通过梯度归一化+偏好加权的简单组合就能生成良好的Pareto前沿
- 仅用最后一层梯度近似全梯度的实践技巧降低了MGDA在LLM中的计算开销
- Safe RLHF在模型已有一定安全性时失效的分析很有洞察力,指出了约束优化的局限
- PPO-H和PPO-S的极端表现(一个维度极好另一个极差)直观展示了多目标冲突的严重性
- Theorem 3.3的结论形式优美:优化量与梯度L2范数的p次方成正比,意味着更需优化的目标自动获得更多资源
- Rewarded Soups被完全支配的结果表明,权重空间的线性插值过于粗糙
局限性 / 可改进方向¶
- 仅在Mistral-7B上验证,不同LLM的初始能力差异可能影响优化平衡
- 缺乏评估LLM响应是否准确反映用户偏好权重的方法
- 目前仅考虑帮助性和无害性两个目标,三目标以上的场景(加入诚实性、简洁性等)未探索
- 仅用最后一层梯度的近似精度缺乏理论保证,可能在深层网络中丢失信息
- P-GAPO需要对每个偏好向量训练一个模型,开销随偏好粒度线性增长
- 未与DPO系列的多目标方法(如MODPO)对比
相关工作与启发¶
- 与多任务学习中的梯度冲突解决方法(GradNorm, PCGrad, Nash-MTL, CAGrad等)思路相通,但首次系统应用于LLM对齐
- Safe RLHF的约束优化和MORLHF的线性加权都有理论局限性,GAPO提供了第三条路径
- P-GAPO的偏好Pareto前沿为个性化对齐提供了基础设施
- Rewarded Soups的权重插值方法被证明效果有限,梯度级别的干预更有效
评分¶
- 新颖性: ⭐⭐⭐⭐ 将MGDA+梯度缩放引入LLM多目标对齐,理论贡献扎实
- 实验充分度: ⭐⭐⭐⭐ 两个数据集、多种基线、GPT-4o评估、Pareto前沿分析
- 写作质量: ⭐⭐⭐⭐ 理论推导和实验衔接好,定理陈述规范
- 价值: ⭐⭐⭐⭐ 对LLM安全对齐有实际指导意义,方法可扩展到更多目标