GoalRank: Group-Relative Optimization for a Large Ranking Model¶

会议: ICLR 2026
arXiv: 2509.22046
代码: 无
领域: LLM对齐 / 推荐排序
关键词: ranking, generator-only, group-relative optimization, scaling law, recommendation

一句话总结¶

理论证明任意 Multi-Generator-Evaluator 排序系统都存在一个更大的 generator-only 模型以更小的误差逼近最优策略且满足 scaling law，据此提出 GoalRank——用 reward model 构建 group-relative 参考策略来训练大型 generator-only 排序模型，在线 A/B 测试中显著优于 SOTA。

研究背景与动机¶

领域现状：推荐系统排序阶段是从 N 个候选中选出长度 L 的有序列表（P(N,L) 组合空间）。主流方案是 Generator-Evaluator 两阶段范式：generator 产出候选列表，evaluator 选最优。
现有痛点：增加 generator 数量/多 generator 集成的收益迅速饱和（Fig 1d）。两阶段范式引入跨阶段不一致性和工程复杂度。
核心矛盾：两阶段方法的策略空间受限于 k 个小 generator 的混合，而端到端大模型的 scaling law 表明更大的单一模型可能更好。
本文要解决什么？（1）generator-only 能否理论上超越 Multi-G-E？（2）如何训练这样的大排序模型？
切入角度：Theorem 1 证明更大 generator-only 的逼近误差严格小于任意有限 Multi-G-E，且随模型增大趋向零。
核心idea一句话：用 reward model 在候选列表组上构建 group-relative softmax 参考策略，通过交叉熵训练大排序模型逼近最优策略。

方法详解¶

整体框架¶

(1) 训练 reward model \(\hat{r}(l)\) 预估列表级用户反馈 → (2) 对每个用户构建列表组 \(\mathcal{B}_u\)（含主模型和多种辅助策略生成的列表）→ (3) 用 group-relative softmax 构建参考策略 \(\pi^{ref}\) → (4) 最小化 \(\pi_\theta\) 与 \(\pi^{ref}\) 的交叉熵。

关键设计¶

Theorem 1（理论支撑）：对任意 k-mixture \((α,β)\)-bounded 策略空间 \(\mathcal{C}_m^k\)，存在宽度 \(\geq kα+n\) 的 generator-only 策略空间 \(\mathcal{F}_M\)，使得 \(\mathcal{E}(\mathcal{F}_M) < \mathcal{E}(\mathcal{C}_m^k)\)，且 \(\lim_{n→∞} \mathcal{E}(\mathcal{F}_M) = 0\)。
Group-Relative 参考策略：
\(\pi^{ref}(l|\mathcal{B}) = \frac{\exp((\hat{r}(l) - \bar{r}_\mathcal{B})/\sigma_\mathcal{B})}{\sum_{l'} \exp((\hat{r}(l') - \bar{r}_\mathcal{B})/\sigma_\mathcal{B})}\)
标准化（减均值除标准差）使 biased reward model 在组内保持序关系。
条件：组内 reward 差距 \(> \sigma^*\) 时序关系可靠。
列表组构建：引入辅助策略集 \(\mathcal{M}\)（包含启发式和轻量神经模型），为每个用户产生多样化列表组，保证组内有足够大的 reward 差距。

实验关键数据¶

主实验（ML-1M / Industry / Amazon-Book）¶

方法	ML-1M H@6	Industry H@6	Book H@6
Best G-E (PIER)	62.74	45.35	71.14
Best MG-E (G-100)	60.64	-	-
GoalRank	64.51	55.33	74.29
提升 vs best baseline	+2.77%	+11.3%	+1.7%

Scaling Law 验证¶

GoalRank 的性能随模型参数量/训练数据量稳定提升，展现出清晰的 scaling law。

在线 A/B 测试¶

在工业级短视频平台上，GoalRank 相比 SOTA 基线在核心指标上实现了显著提升。

关键发现¶

Generator-only GoalRank 在所有数据集上超越所有 G-E 和 MG-E 基线，验证了 Theorem 1。
MG-E 方法增加 generator 从 3→100，性能提升饱和甚至下降。
Group-relative 标准化使训练对 reward model 的绝对偏差不敏感，只需序关系正确。

亮点与洞察¶

理论驱动的实践：Theorem 1 不仅是理论装饰，而是指导了整个框架设计——放弃两阶段范式、scaling up generator、用 group-relative 避免精确 reward。
与 DPO/RLHF 的呼应：GoalRank 的 group-relative 优化与 LLM 对齐中的 RLHF/DPO 高度类似——都用 reward 信号构建参考分布来训练策略，只是应用场景从"文本生成"变成了"列表排序"。
Scaling Law 的推荐系统版本：首次在排序任务上展示了与 LLM 类似的 scaling law。

局限性 / 可改进方向¶

需要预训练 reward model，其质量上限决定了 GoalRank 的上限。
辅助策略集 \(\mathcal{M}\) 的选择对列表组多样性和 reward 差距有影响。
仅在推荐排序场景验证，未探索在 LLM 对齐（如 RLHF）中的应用。

评分¶

新颖性: ⭐⭐⭐⭐ 理论证明 generator-only 优于 G-E 是有力贡献，group-relative 优化思路新颖
实验充分度: ⭐⭐⭐⭐⭐ 公开数据集 + 工业数据集 + 在线 A/B 测试 + scaling law
写作质量: ⭐⭐⭐⭐ 理论和实践结合好
价值: ⭐⭐⭐⭐ 对推荐系统排序范式有重要影响