GRAM: A Generative Foundation Reward Model for Reward Generalization¶

会议: ICML 2025
arXiv: 2506.14175
代码: 无
领域: Image Generation (LLM Alignment)
关键词: 奖励模型, 生成式模型, 基础模型, RLHF, 泛化

一句话总结¶

GRAM 提出用生成式（而非判别式）方法训练奖励模型——先通过大规模无监督学习预训练生成式奖励模型，再用监督数据微调，并证明 label smoothing 实际上等价于正则化的 pairwise ranking 损失，实现了跨任务的奖励泛化。

领域现状：在 LLM 对齐中，奖励模型（RM）是 RLHF 的核心组件，用于指导模型生成符合人类偏好的输出。当前奖励模型通常以判别式方式训练——直接在人类偏好标签数据上学习打分函数。

现有痛点：判别式奖励模型严重依赖标注的人类偏好数据，泛化能力不足。当面对新任务或新分布的数据时，RM 性能显著下降。同时，高质量偏好数据获取成本高昂。

核心矛盾：标注偏好数据量有限 vs 奖励模型需要泛化到广泛任务。如何让 RM 像基础语言模型一样，通过大规模无标注数据获得泛化能力？

本文目标：构建一个"基础奖励模型"（foundation reward model），能在少量甚至零标注数据下迁移到多种任务。

切入角度：借鉴LLM的"预训练+微调"范式——先用大规模无监督数据训练生成式RM，再用少量偏好数据微调。

核心 idea：生成模型的对数似然天然就是一种奖励信号，通过预训练+微调，可以构建泛化能力极强的基础奖励模型。

生成式奖励模型（Generative RM）:
- 不同于传统 RM 在序列末尾加一个标量分类头，GRAM 直接用生成模型的对数似然 \(\log p_\theta(y|x)\) 作为奖励
- 关键洞察：高质量的回复在生成模型下应有更高的似然
- 设计动机：生成式模型可以利用大量无标注数据预训练，获得对语言质量的普遍理解
Label Smoothing 与正则化 Pairwise Ranking 的等价性:
- 证明了当使用 label smoothing 训练时，生成式损失等价于一个正则化的 pairwise ranking 损失
- 这意味着：\(\mathcal{L}_{\text{smooth}} = (1-\epsilon)\mathcal{L}_{\text{CE}}(y_w) + \epsilon \mathcal{L}_{\text{CE}}(y_l)\) 在偏好训练下可以被理解为同时最大化好回复的似然并最小化坏回复的似然
- 设计动机：建立生成式模型和判别式模型在同一训练目标类下的统一视角
基础奖励模型的迁移:
- 预训练后的生成式 RM 可以直接（零样本）或少量微调后应用于各种下游任务
- 包括 response ranking、RLHF 训练信号、任务适配等
- 设计动机：类似基础语言模型的零样本和少样本迁移能力

任务	指标	GRAM	判别式基线	提升
偏好排序 (RewardBench)	Accuracy↑	显著提升	标准 BT RM	多个百分点
RLHF 训练	Win Rate↑	更高	标准 RM	显著
任务适配（少样本）	Accuracy↑	更好	直接微调 RM	明显改善
零样本迁移	Accuracy↑	可用	需要训练数据	无需标注