mR3: Multilingual Rubric-Agnostic Reward Reasoning Models¶

会议: ICLR 2026
arXiv: 2510.01146
代码: github.com/rubricreward/mr3
领域: LLM推理 / 对齐RLHF
关键词: 多语言奖励模型, 推理评估, 课程学习, rubric评估, 知识蒸馏

一句话总结¶

提出 mR3，一系列覆盖72种语言的多语言rubric-agnostic推理奖励模型，通过系统化的数据构建（GPT-OSS-120B蒸馏+难度过滤）和课程学习策略训练，14B模型在多语言评估基准上超越120B教师模型及所有同类基线，同时支持point-wise/pair-wise/binary三种评估范式。

研究背景与动机¶

领域现状：LLM-as-judge评估方法在英语场景已被广泛采用，但对非英语语言的支持极其有限。现有奖励模型（如ArmoRM、RM-R1）几乎完全聚焦英语，多语言评估模型（如m-Prometheus）仅覆盖6种语言，且缺乏对训练策略的系统性研究。
现有痛点：
现有奖励模型在非英语设置下准确率显著下降
LLM在低资源语言（LRL）上缺乏连贯推理的能力
多语言评估缺乏标准化框架，现有工作仅支持pair-wise比较，不支持point-wise和binary评估
如何为多语言奖励模型构建高质量训练数据？指令语言、rubric语言、推理语言各应使用什么？缺乏系统研究
核心矛盾：多语言评估需要同时具备强推理能力和跨语言知识迁移能力，但现有模型的推理能力在非英语语言上远逊于英语。如何在有限的多语言数据条件下同时提升二者？
本文要解决什么？
设计覆盖72种语言的多语言奖励推理模型
系统研究指令语言、推理语言、目标语言的最优组合
探索数据选择和课程学习策略
支持point-wise/pair-wise/binary全评估范式
切入角度：与其训练传统的标量奖励模型，不如训练能产出推理trace+评分的生成式奖励模型，通过显式的推理过程提升评估的可解释性和跨语言鲁棒性。
核心idea一句话：通过GPT-OSS-120B蒸馏构建72语言对齐数据集（100K样本），结合难度过滤和课程学习训练生成式推理奖励模型，以小博大超越教师模型。

方法详解¶

整体框架¶

输入：任务指令 \(t\) + 输入实例 \(i\) + 候选回答 \(a\) + 评估rubric \(r\)
输出：推理trace + 简短解释 \(e\) + 评分 \(s\)
即 \(f(x) = y\)，其中 \(x = (t, i, a, r)\)，\(y = (\text{trace}, e, s)\)

三种评估模式：point-wise（单回答打分）、pair-wise（两回答比较）、binary（正确/错误判断）

关键设计¶

多语言数据构建流水线
做什么：从300万+样本中筛选构建100K高质量多语言训练集
核心思路：
- 初始数据池来自6个公开数据集（Human Arena Preference, HelpSteer3, MMMLU, HumanEval-XL, MATH-500 Multilingual, PolyGuardMix），覆盖125种语言
- 缺少rubric的数据用GPT-4.1自动生成英语rubric
- 用GPT-OSS-120B蒸馏生成三种语言策略的输出：eng-eng（英文指令+英文推理）、tgt-eng（目标语指令+英文推理）、tgt-tgt（目标语指令+目标语推理）
- 质量过滤：只保留三种策略都能正确回答的样本
- 难度过滤：去掉gpt-oss-20b连续5次都能答对的"简单"样本
- 最终下采样到100K，优先保留更难的样本
课程学习策略
做什么：优化训练数据的排列顺序
核心思路：测试了随机打乱、英语优先、难度排序、混合方案，发现按易到难排序效果最佳（难度 = 预测一致性 + token长度）
设计动机：易样本先建立基础能力，难样本后期微调，避免训练初期被噪声样本干扰
多语言推理策略研究
做什么：系统比较eng-eng、tgt-eng、tgt-tgt三种推理路径的效果
核心发现：
- eng-eng整体最强（英语推理能力最成熟）
- tgt-eng紧随其后，大模型对非英语prompt鲁棒性更强
- tgt-tgt在微调前最弱，但微调后提升最大，甚至超过基础模型的eng-eng性能
设计动机：目标语推理对可解释性和低资源语言用户至关重要
训练目标：SFT而非RL
做什么：使用标准交叉熵损失训练，最大化目标token的对数似然
核心公式：\(\mathcal{L}_{\text{SFT}}(\theta) = -\frac{1}{N}\sum_{i=1}^{N}\sum_{t=1}^{T_i}\log \pi_\theta(y_t^{(i)} | y_{<t}^{(i)}, x^{(i)})\)
设计动机：实验发现RL-based方法（如RLVR）在此场景下不如SFT有效

损失函数 / 训练策略¶

SFT交叉熵损失，基于Qwen3模型家族（4B/8B/14B）
课程学习：按难度从易到难排序训练数据
多语言对齐：同一样本在三种语言策略下均对齐

实验关键数据¶

主实验（Pairwise评估基准，eng-eng设置）¶

模型	m-RewardBench (23lang)	RewardBench (1lang)	MM-Eval (18lang)	IndoPref (1lang)
GPT-OSS-120B	89.05	90.30	85.01	72.15
Nemotron-Multi-49B	89.03	89.62	76.27	68.40
R3-Qwen3-14B-LoRA	88.07	91.00	84.04	72.65
mR3-Qwen3-14B	89.18	90.79	86.05	74.14
mR3-Qwen3-8B	88.44	90.50	84.84	72.86
mR3-Qwen3-4B	87.61	89.74	82.62	72.22

mR3-Qwen3-14B以14B参数超越120B教师模型（+0.13 on m-RB, +1.04 on MM-Eval, +1.99 on IndoPref），且比49B Nemotron快3.5倍。

消融实验¶

配置	关键发现
课程学习：易→难 vs 随机	易→难在HelpSteer3验证集上最优
数据量：50K vs 100K vs 200K	100K为甜点，200K无显著提升
语言策略：eng-eng vs tgt-tgt	eng-eng绝对分高，但tgt-tgt微调后提升最大
难度过滤：有 vs 无	去除简单样本显著提升模型性能
训练方法：SFT vs RLVR	SFT在本任务中一致优于RL方法

关键发现¶

小模型大能量：14B参数模型系统性超越120B教师模型和49B竞品，说明高质量数据+正确训练策略比规模更重要
tgt-tgt策略的阶跃提升：基座模型的目标语推理最弱，但微调后提升幅度最大，甚至超过基座的eng-eng。这说明多语言训练能有效"激活"跨语言推理能力
DPO下游验证：用mR3-Qwen3-14B作为奖励模型对Qwen3-30B-A3B做DPO，在m-ArenaHard-v2.0英语winrate从49.1%提升到57.3%
人类评估：20名母语者跨12种语言评估，mR3的推理trace在事实性(2.78)和逻辑性(2.67)上大幅优于Qwen3基线(2.06/2.05)

亮点与洞察¶

72语言统一训练框架是多语言奖励模型领域的重大突破，远超之前最多6语言的m-Prometheus。三种语言策略（eng-eng/tgt-eng/tgt-tgt）的对齐数据设计非常巧妙，既保证了研究的可控性，又覆盖了真实使用场景
"易→难"课程学习在奖励模型训练中有效：这一发现可直接迁移到其他生成式评估模型的训练中
数据质量>数据规模：100K精选数据训练的14B模型超越3M+数据训练的大模型，强调了multi-stage过滤（三策略一致性+难度过滤）的重要性
目标语推理的可解释性价值：虽然eng推理准确率更高，但tgt推理对低资源语言用户的可访问性和trust至关重要，微调能有效缩小差距

局限性 / 可改进方向¶

教师模型GPT-OSS-120B的蒸馏输出本身存在语言偏差（英语最好），这会传递给mR3
72种语言中低资源语言的覆盖可能不均匀（数据集主要来源偏向高/中资源语言）
只用SFT训练，未充分探索RL后训练（如GRPO）的潜力
人类评估仅覆盖12种语言（虽然已比同类工作多很多），未涵盖所有72种训练语言
可改进方向：对低资源语言做专门的数据增强（如利用高资源→低资源的翻译+回译），以及探索在线RL微调是否能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ 72语言统一框架和三策略对齐数据构建新颖，但模型架构和训练方法（SFT）相对常规
实验充分度: ⭐⭐⭐⭐⭐ 覆盖7个基准、多种消融、课程学习对比、DPO下游验证、20人12语言人类评估，极为全面
写作质量: ⭐⭐⭐⭐ 结构清晰，表格和图表丰富，但论文较长（大量附录），核心贡献需从海量实验中提炼
价值: ⭐⭐⭐⭐⭐ 填补了多语言奖励模型的重大空白，对非英语LLM对齐有直接实用价值

实验关键数据¶

模型	mR3-RewardBench	大小
GPT-OSS-120B	~88%	120B
mR3-Qwen-14B	88.46%	14B (9×小)

20名标注者/12语言人工评估更偏好 mR3 的推理质量。

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模多语言奖励推理模型
实验充分度: ⭐⭐⭐⭐⭐ 72语言+人工评估
价值: ⭐⭐⭐⭐⭐ 多语言LLM对齐的基础设施

mR3: Multilingual Rubric-Agnostic Reward Reasoning Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验（Pairwise评估基准，eng-eng设置）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

实验关键数据¶

评分¶