mR3: Multilingual Rubric-Agnostic Reward Reasoning Models¶
会议: ICLR 2026
arXiv: 2510.01146
代码: github.com/rubricreward/mr3
领域: LLM推理 / 对齐RLHF
关键词: 多语言奖励模型, 推理评估, 课程学习, rubric评估, 知识蒸馏
一句话总结¶
提出 mR3,一系列覆盖72种语言的多语言rubric-agnostic推理奖励模型,通过系统化的数据构建(GPT-OSS-120B蒸馏+难度过滤)和课程学习策略训练,14B模型在多语言评估基准上超越120B教师模型及所有同类基线,同时支持point-wise/pair-wise/binary三种评估范式。
研究背景与动机¶
-
领域现状:LLM-as-judge评估方法在英语场景已被广泛采用,但对非英语语言的支持极其有限。现有奖励模型(如ArmoRM、RM-R1)几乎完全聚焦英语,多语言评估模型(如m-Prometheus)仅覆盖6种语言,且缺乏对训练策略的系统性研究。
-
现有痛点:
- 现有奖励模型在非英语设置下准确率显著下降
- LLM在低资源语言(LRL)上缺乏连贯推理的能力
- 多语言评估缺乏标准化框架,现有工作仅支持pair-wise比较,不支持point-wise和binary评估
-
如何为多语言奖励模型构建高质量训练数据?指令语言、rubric语言、推理语言各应使用什么?缺乏系统研究
-
核心矛盾:多语言评估需要同时具备强推理能力和跨语言知识迁移能力,但现有模型的推理能力在非英语语言上远逊于英语。如何在有限的多语言数据条件下同时提升二者?
-
本文要解决什么?
- 设计覆盖72种语言的多语言奖励推理模型
- 系统研究指令语言、推理语言、目标语言的最优组合
- 探索数据选择和课程学习策略
-
支持point-wise/pair-wise/binary全评估范式
-
切入角度:与其训练传统的标量奖励模型,不如训练能产出推理trace+评分的生成式奖励模型,通过显式的推理过程提升评估的可解释性和跨语言鲁棒性。
-
核心idea一句话:通过GPT-OSS-120B蒸馏构建72语言对齐数据集(100K样本),结合难度过滤和课程学习训练生成式推理奖励模型,以小博大超越教师模型。
方法详解¶
整体框架¶
输入:任务指令 \(t\) + 输入实例 \(i\) + 候选回答 \(a\) + 评估rubric \(r\)
输出:推理trace + 简短解释 \(e\) + 评分 \(s\)
即 \(f(x) = y\),其中 \(x = (t, i, a, r)\),\(y = (\text{trace}, e, s)\)
三种评估模式:point-wise(单回答打分)、pair-wise(两回答比较)、binary(正确/错误判断)
关键设计¶
- 多语言数据构建流水线
- 做什么:从300万+样本中筛选构建100K高质量多语言训练集
-
核心思路:
- 初始数据池来自6个公开数据集(Human Arena Preference, HelpSteer3, MMMLU, HumanEval-XL, MATH-500 Multilingual, PolyGuardMix),覆盖125种语言
- 缺少rubric的数据用GPT-4.1自动生成英语rubric
- 用GPT-OSS-120B蒸馏生成三种语言策略的输出:eng-eng(英文指令+英文推理)、tgt-eng(目标语指令+英文推理)、tgt-tgt(目标语指令+目标语推理)
- 质量过滤:只保留三种策略都能正确回答的样本
- 难度过滤:去掉gpt-oss-20b连续5次都能答对的"简单"样本
- 最终下采样到100K,优先保留更难的样本
-
课程学习策略
- 做什么:优化训练数据的排列顺序
- 核心思路:测试了随机打乱、英语优先、难度排序、混合方案,发现按易到难排序效果最佳(难度 = 预测一致性 + token长度)
-
设计动机:易样本先建立基础能力,难样本后期微调,避免训练初期被噪声样本干扰
-
多语言推理策略研究
- 做什么:系统比较eng-eng、tgt-eng、tgt-tgt三种推理路径的效果
- 核心发现:
- eng-eng整体最强(英语推理能力最成熟)
- tgt-eng紧随其后,大模型对非英语prompt鲁棒性更强
- tgt-tgt在微调前最弱,但微调后提升最大,甚至超过基础模型的eng-eng性能
-
设计动机:目标语推理对可解释性和低资源语言用户至关重要
-
训练目标:SFT而非RL
- 做什么:使用标准交叉熵损失训练,最大化目标token的对数似然
- 核心公式:\(\mathcal{L}_{\text{SFT}}(\theta) = -\frac{1}{N}\sum_{i=1}^{N}\sum_{t=1}^{T_i}\log \pi_\theta(y_t^{(i)} | y_{<t}^{(i)}, x^{(i)})\)
- 设计动机:实验发现RL-based方法(如RLVR)在此场景下不如SFT有效
损失函数 / 训练策略¶
- SFT交叉熵损失,基于Qwen3模型家族(4B/8B/14B)
- 课程学习:按难度从易到难排序训练数据
- 多语言对齐:同一样本在三种语言策略下均对齐
实验关键数据¶
主实验(Pairwise评估基准,eng-eng设置)¶
| 模型 | m-RewardBench (23lang) | RewardBench (1lang) | MM-Eval (18lang) | IndoPref (1lang) |
|---|---|---|---|---|
| GPT-OSS-120B | 89.05 | 90.30 | 85.01 | 72.15 |
| Nemotron-Multi-49B | 89.03 | 89.62 | 76.27 | 68.40 |
| R3-Qwen3-14B-LoRA | 88.07 | 91.00 | 84.04 | 72.65 |
| mR3-Qwen3-14B | 89.18 | 90.79 | 86.05 | 74.14 |
| mR3-Qwen3-8B | 88.44 | 90.50 | 84.84 | 72.86 |
| mR3-Qwen3-4B | 87.61 | 89.74 | 82.62 | 72.22 |
mR3-Qwen3-14B以14B参数超越120B教师模型(+0.13 on m-RB, +1.04 on MM-Eval, +1.99 on IndoPref),且比49B Nemotron快3.5倍。
消融实验¶
| 配置 | 关键发现 |
|---|---|
| 课程学习:易→难 vs 随机 | 易→难在HelpSteer3验证集上最优 |
| 数据量:50K vs 100K vs 200K | 100K为甜点,200K无显著提升 |
| 语言策略:eng-eng vs tgt-tgt | eng-eng绝对分高,但tgt-tgt微调后提升最大 |
| 难度过滤:有 vs 无 | 去除简单样本显著提升模型性能 |
| 训练方法:SFT vs RLVR | SFT在本任务中一致优于RL方法 |
关键发现¶
- 小模型大能量:14B参数模型系统性超越120B教师模型和49B竞品,说明高质量数据+正确训练策略比规模更重要
- tgt-tgt策略的阶跃提升:基座模型的目标语推理最弱,但微调后提升幅度最大,甚至超过基座的eng-eng。这说明多语言训练能有效"激活"跨语言推理能力
- DPO下游验证:用mR3-Qwen3-14B作为奖励模型对Qwen3-30B-A3B做DPO,在m-ArenaHard-v2.0英语winrate从49.1%提升到57.3%
- 人类评估:20名母语者跨12种语言评估,mR3的推理trace在事实性(2.78)和逻辑性(2.67)上大幅优于Qwen3基线(2.06/2.05)
亮点与洞察¶
- 72语言统一训练框架是多语言奖励模型领域的重大突破,远超之前最多6语言的m-Prometheus。三种语言策略(eng-eng/tgt-eng/tgt-tgt)的对齐数据设计非常巧妙,既保证了研究的可控性,又覆盖了真实使用场景
- "易→难"课程学习在奖励模型训练中有效:这一发现可直接迁移到其他生成式评估模型的训练中
- 数据质量>数据规模:100K精选数据训练的14B模型超越3M+数据训练的大模型,强调了multi-stage过滤(三策略一致性+难度过滤)的重要性
- 目标语推理的可解释性价值:虽然eng推理准确率更高,但tgt推理对低资源语言用户的可访问性和trust至关重要,微调能有效缩小差距
局限性 / 可改进方向¶
- 教师模型GPT-OSS-120B的蒸馏输出本身存在语言偏差(英语最好),这会传递给mR3
- 72种语言中低资源语言的覆盖可能不均匀(数据集主要来源偏向高/中资源语言)
- 只用SFT训练,未充分探索RL后训练(如GRPO)的潜力
- 人类评估仅覆盖12种语言(虽然已比同类工作多很多),未涵盖所有72种训练语言
- 可改进方向:对低资源语言做专门的数据增强(如利用高资源→低资源的翻译+回译),以及探索在线RL微调是否能进一步提升
相关工作与启发¶
- vs R3 (Anugraha et al., 2025):R3是mR3的英语版前身,仅用英语数据训练。mR3继承其rubric-agnostic框架并扩展到72语言,在多语言基准上大幅超越R3(m-RewardBench: 89.18 vs 88.07),同时R3在纯英语RewardBench上略胜(91.00 vs 90.79)
- vs m-Prometheus (Pombal et al., 2025):仅6语言+480K训练数据,m-RewardBench 79.51 vs mR3的89.18,差距巨大
- vs Nemotron-Multilingual-49B (Wang et al., 2025):49B参数仅支持13语言的pair-wise评估,mR3-14B以1/3.5参数量和7.2倍语言覆盖全面超越
评分¶
- 新颖性: ⭐⭐⭐⭐ 72语言统一框架和三策略对齐数据构建新颖,但模型架构和训练方法(SFT)相对常规
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖7个基准、多种消融、课程学习对比、DPO下游验证、20人12语言人类评估,极为全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,表格和图表丰富,但论文较长(大量附录),核心贡献需从海量实验中提炼
- 价值: ⭐⭐⭐⭐⭐ 填补了多语言奖励模型的重大空白,对非英语LLM对齐有直接实用价值
实验关键数据¶
| 模型 | mR3-RewardBench | 大小 |
|---|---|---|
| GPT-OSS-120B | ~88% | 120B |
| mR3-Qwen-14B | 88.46% | 14B (9×小) |
20名标注者/12语言人工评估更偏好 mR3 的推理质量。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模多语言奖励推理模型
- 实验充分度: ⭐⭐⭐⭐⭐ 72语言+人工评估
- 价值: ⭐⭐⭐⭐⭐ 多语言LLM对齐的基础设施