Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language Models¶

会议: ACL 2025
arXiv: 2507.01915
代码: 无
领域: LLM对齐
关键词: 多目标对齐, RLHF, 梯度下降, Pareto最优, 偏好优化

一句话总结¶

提出GAPO，一种基于梯度自适应缩放的多目标策略优化方法，利用多梯度下降算法(MGDA)结合梯度归一化，平衡LLM在帮助性和无害性等冲突目标间的权衡，并通过P-GAPO支持用户偏好驱动的Pareto前沿生成。

研究背景与动机¶

领域现状: RLHF是对齐LLM与人类偏好的主流方法。但单一reward函数难以涵盖多样化人类偏好（帮助性、无害性、诚实性），近期开始引入多目标RLHF框架。
现有痛点: (1) Safe RLHF使用PPO-Lagrangian处理约束优化，复杂且不稳定；(2) MORLHF使用线性加权组合多奖励，本质局限性使其无法充分探索Pareto最优解；(3) 冲突目标导致过度安全行为（无害但无用）。
核心矛盾: 多目标RLHF中目标间的inherent冲突——优化一个目标往往牺牲另一个，线性加权无法有效管理梯度尺度差异。
本文要解决什么: 设计能自适应平衡多冲突目标的对齐算法，避免优化不平衡问题。
切入角度: 从多目标优化理论出发，使用MGDA确定更新方向，并通过梯度归一化消除不同目标间梯度尺度差异。
核心idea一句话: 用梯度自适应缩放修正MGDA的不平衡问题，使更新方向自动关注优化不足的目标。

方法详解¶

整体框架¶

GAPO将LLM对齐建模为多目标优化问题，不同于线性加权奖励的MORLHF方法。使用PPO作为基础RL算法，但用MGDA确定更新方向，并引入梯度缩放机制平衡各目标的优化进度。

关键设计¶

MGDA基础: 求解 min_{α} ‖Σα_i∇J_i‖²，s.t. Σα_i=1, α_i≥0，得到同时改善所有目标的Pareto下降方向。但MGDA会导致优化进度一致(Theorem 3.1)，当某些目标已接近最优时限制其他目标的优化空间。
梯度自适应缩放(Gradient Rescaling): 将原始梯度除以其L2范数的p次方：∇^N J_i = ∇J_i / ‖∇J_i‖²^p。p=1为标准归一化，p=2使重缩放梯度长度为原始梯度长度的倒数。消除梯度尺度差异后重新求解MGDA(Problem 7)。Theorem 3.3证明此时各目标的优化量与其梯度范数的p次方成比例，即梯度越大（优化需求越大）的目标获得更多优化。
P-GAPO (偏好版GAPO): 引入用户偏好向量 λ=(λ_r, λ_c)，先对梯度做p=1归一化，再用偏好加权求和作为更新方向：θ' = θ + η·Σλ_i·∇^N J_i。通过不同λ值训练多个模型覆盖Pareto前沿。

损失函数 / 训练策略¶

基于PPO优化KL正则化的多目标奖励。帮助性目标使用reward model R_ϕ，无害性目标使用cost model的负值 -C_ψ（beaver-7b-v1.0系列）。使用Mistral-7B-SFT作为基础模型。仅使用最后一层参数的梯度来降低空间复杂度（从mn降至近似）。P-GAPO使用λ_r ∈ {0.2, 0.4, 0.6, 0.8}。

实验关键数据¶

主实验¶

Mistral-7B在PKU-SafeRLHF和HH-RLHF测试集上的结果：

方法	PKU Helpful↑	PKU Harmless↑	PKU Avg↑	HH Helpful↑	HH Harmless↑	HH Avg↑
SFT	2.33	1.78	2.06	5.75	5.25	5.50
PPO-H	9.52	-11.77	-1.12	9.44	-5.02	2.21
PPO-S	-7.21	13.05	2.92	-2.53	13.07	5.27
Safe RLHF	5.02	1.83	3.42	7.62	5.70	6.66
Fast RL	6.93	6.08	6.50	12.37	8.54	10.45
MGDA	7.34	5.94	6.64	10.90	8.22	9.56
GAPO p=1	7.48	7.92	7.70	12.56	9.82	11.19
GAPO p=2	7.67	6.81	7.24	12.87	9.58	11.23

消融实验¶

不同方法的无害响应比例（PKU-SafeRLHF）：

方法	Harmless.ratio
PPO-H	38.88%
PPO-S	99.48%
Safe RLHF	68.35%
MGDA	79.64%
GAPO p=1	83.82%
GAPO p=2	82.19%

关键发现¶

GAPO p=1在Avg指标上一致最优，在帮助性和无害性上均达到高水平，无需牺牲任何一方
单目标PPO表现极端：PPO-H帮助性最高但无害性极差，PPO-S反之。验证了多目标对齐的必要性
Safe RLHF的PPO-Lagrangian方法在基础模型已有一定安全性时无法继续优化无害性——Lagrangian乘子快速降低
GPT-4o评估确认GAPO p=1在帮助性和无害性上均显著优于SFT基线
P-GAPO在均衡偏好(λ_r∈{0.4,0.6})时优于MORLHF，但极端偏好下MORLHF稍好（因其直接优化主目标）
P-GAPO和MORLHF的Pareto前沿均完全支配Rewarded Soups(RS)，说明简单合并单目标模型权重效果有限

亮点与洞察¶

MGDA的不平衡问题分析深刻（Theorem 3.1），梯度缩放的修正方案理论优美且实现简单
p值的选择提供灵活性：p=1标准归一化在GPT-4o评估中明显更优，p=2在纯reward评估中略好
P-GAPO通过梯度归一化+偏好加权的简单组合就能生成良好的Pareto前沿
仅用最后一层梯度近似全梯度的实践技巧降低了MGDA在LLM中的计算开销
Safe RLHF在模型已有一定安全性时失效的分析很有洞察力，指出了约束优化的局限
PPO-H和PPO-S的极端表现（一个维度极好另一个极差）直观展示了多目标冲突的严重性
Theorem 3.3的结论形式优美：优化量与梯度L2范数的p次方成正比，意味着更需优化的目标自动获得更多资源
Rewarded Soups被完全支配的结果表明，权重空间的线性插值过于粗糙

局限性 / 可改进方向¶

仅在Mistral-7B上验证，不同LLM的初始能力差异可能影响优化平衡
缺乏评估LLM响应是否准确反映用户偏好权重的方法
目前仅考虑帮助性和无害性两个目标，三目标以上的场景（加入诚实性、简洁性等）未探索
仅用最后一层梯度的近似精度缺乏理论保证，可能在深层网络中丢失信息
P-GAPO需要对每个偏好向量训练一个模型，开销随偏好粒度线性增长
未与DPO系列的多目标方法（如MODPO）对比

评分¶

新颖性: ⭐⭐⭐⭐ 将MGDA+梯度缩放引入LLM多目标对齐，理论贡献扎实
实验充分度: ⭐⭐⭐⭐ 两个数据集、多种基线、GPT-4o评估、Pareto前沿分析
写作质量: ⭐⭐⭐⭐ 理论推导和实验衔接好，定理陈述规范
价值: ⭐⭐⭐⭐ 对LLM安全对齐有实际指导意义，方法可扩展到更多目标