跳转至

mR3: Multilingual Rubric-Agnostic Reward Reasoning Models

会议: ICLR 2026
arXiv: 2510.01146
代码: github.com/rubricreward/mr3
领域: LLM推理 / 对齐RLHF
关键词: 多语言奖励模型, 推理评估, 课程学习, rubric评估, 知识蒸馏

一句话总结

提出 mR3,一系列覆盖72种语言的多语言rubric-agnostic推理奖励模型,通过系统化的数据构建(GPT-OSS-120B蒸馏+难度过滤)和课程学习策略训练,14B模型在多语言评估基准上超越120B教师模型及所有同类基线,同时支持point-wise/pair-wise/binary三种评估范式。

研究背景与动机

  1. 领域现状:LLM-as-judge评估方法在英语场景已被广泛采用,但对非英语语言的支持极其有限。现有奖励模型(如ArmoRM、RM-R1)几乎完全聚焦英语,多语言评估模型(如m-Prometheus)仅覆盖6种语言,且缺乏对训练策略的系统性研究。

  2. 现有痛点

  3. 现有奖励模型在非英语设置下准确率显著下降
  4. LLM在低资源语言(LRL)上缺乏连贯推理的能力
  5. 多语言评估缺乏标准化框架,现有工作仅支持pair-wise比较,不支持point-wise和binary评估
  6. 如何为多语言奖励模型构建高质量训练数据?指令语言、rubric语言、推理语言各应使用什么?缺乏系统研究

  7. 核心矛盾:多语言评估需要同时具备强推理能力和跨语言知识迁移能力,但现有模型的推理能力在非英语语言上远逊于英语。如何在有限的多语言数据条件下同时提升二者?

  8. 本文要解决什么?

  9. 设计覆盖72种语言的多语言奖励推理模型
  10. 系统研究指令语言、推理语言、目标语言的最优组合
  11. 探索数据选择和课程学习策略
  12. 支持point-wise/pair-wise/binary全评估范式

  13. 切入角度:与其训练传统的标量奖励模型,不如训练能产出推理trace+评分的生成式奖励模型,通过显式的推理过程提升评估的可解释性和跨语言鲁棒性。

  14. 核心idea一句话:通过GPT-OSS-120B蒸馏构建72语言对齐数据集(100K样本),结合难度过滤和课程学习训练生成式推理奖励模型,以小博大超越教师模型。

方法详解

整体框架

输入:任务指令 \(t\) + 输入实例 \(i\) + 候选回答 \(a\) + 评估rubric \(r\)
输出:推理trace + 简短解释 \(e\) + 评分 \(s\)
\(f(x) = y\),其中 \(x = (t, i, a, r)\)\(y = (\text{trace}, e, s)\)

三种评估模式:point-wise(单回答打分)、pair-wise(两回答比较)、binary(正确/错误判断)

关键设计

  1. 多语言数据构建流水线
  2. 做什么:从300万+样本中筛选构建100K高质量多语言训练集
  3. 核心思路:

    • 初始数据池来自6个公开数据集(Human Arena Preference, HelpSteer3, MMMLU, HumanEval-XL, MATH-500 Multilingual, PolyGuardMix),覆盖125种语言
    • 缺少rubric的数据用GPT-4.1自动生成英语rubric
    • 用GPT-OSS-120B蒸馏生成三种语言策略的输出:eng-eng(英文指令+英文推理)、tgt-eng(目标语指令+英文推理)、tgt-tgt(目标语指令+目标语推理)
    • 质量过滤:只保留三种策略都能正确回答的样本
    • 难度过滤:去掉gpt-oss-20b连续5次都能答对的"简单"样本
    • 最终下采样到100K,优先保留更难的样本
  4. 课程学习策略

  5. 做什么:优化训练数据的排列顺序
  6. 核心思路:测试了随机打乱、英语优先、难度排序、混合方案,发现按易到难排序效果最佳(难度 = 预测一致性 + token长度)
  7. 设计动机:易样本先建立基础能力,难样本后期微调,避免训练初期被噪声样本干扰

  8. 多语言推理策略研究

  9. 做什么:系统比较eng-eng、tgt-eng、tgt-tgt三种推理路径的效果
  10. 核心发现:
    • eng-eng整体最强(英语推理能力最成熟)
    • tgt-eng紧随其后,大模型对非英语prompt鲁棒性更强
    • tgt-tgt在微调前最弱,但微调后提升最大,甚至超过基础模型的eng-eng性能
  11. 设计动机:目标语推理对可解释性和低资源语言用户至关重要

  12. 训练目标:SFT而非RL

  13. 做什么:使用标准交叉熵损失训练,最大化目标token的对数似然
  14. 核心公式:\(\mathcal{L}_{\text{SFT}}(\theta) = -\frac{1}{N}\sum_{i=1}^{N}\sum_{t=1}^{T_i}\log \pi_\theta(y_t^{(i)} | y_{<t}^{(i)}, x^{(i)})\)
  15. 设计动机:实验发现RL-based方法(如RLVR)在此场景下不如SFT有效

损失函数 / 训练策略

  • SFT交叉熵损失,基于Qwen3模型家族(4B/8B/14B)
  • 课程学习:按难度从易到难排序训练数据
  • 多语言对齐:同一样本在三种语言策略下均对齐

实验关键数据

主实验(Pairwise评估基准,eng-eng设置)

模型 m-RewardBench (23lang) RewardBench (1lang) MM-Eval (18lang) IndoPref (1lang)
GPT-OSS-120B 89.05 90.30 85.01 72.15
Nemotron-Multi-49B 89.03 89.62 76.27 68.40
R3-Qwen3-14B-LoRA 88.07 91.00 84.04 72.65
mR3-Qwen3-14B 89.18 90.79 86.05 74.14
mR3-Qwen3-8B 88.44 90.50 84.84 72.86
mR3-Qwen3-4B 87.61 89.74 82.62 72.22

mR3-Qwen3-14B以14B参数超越120B教师模型(+0.13 on m-RB, +1.04 on MM-Eval, +1.99 on IndoPref),且比49B Nemotron快3.5倍。

消融实验

配置 关键发现
课程学习:易→难 vs 随机 易→难在HelpSteer3验证集上最优
数据量:50K vs 100K vs 200K 100K为甜点,200K无显著提升
语言策略:eng-eng vs tgt-tgt eng-eng绝对分高,但tgt-tgt微调后提升最大
难度过滤:有 vs 无 去除简单样本显著提升模型性能
训练方法:SFT vs RLVR SFT在本任务中一致优于RL方法

关键发现

  • 小模型大能量:14B参数模型系统性超越120B教师模型和49B竞品,说明高质量数据+正确训练策略比规模更重要
  • tgt-tgt策略的阶跃提升:基座模型的目标语推理最弱,但微调后提升幅度最大,甚至超过基座的eng-eng。这说明多语言训练能有效"激活"跨语言推理能力
  • DPO下游验证:用mR3-Qwen3-14B作为奖励模型对Qwen3-30B-A3B做DPO,在m-ArenaHard-v2.0英语winrate从49.1%提升到57.3%
  • 人类评估:20名母语者跨12种语言评估,mR3的推理trace在事实性(2.78)和逻辑性(2.67)上大幅优于Qwen3基线(2.06/2.05)

亮点与洞察

  • 72语言统一训练框架是多语言奖励模型领域的重大突破,远超之前最多6语言的m-Prometheus。三种语言策略(eng-eng/tgt-eng/tgt-tgt)的对齐数据设计非常巧妙,既保证了研究的可控性,又覆盖了真实使用场景
  • "易→难"课程学习在奖励模型训练中有效:这一发现可直接迁移到其他生成式评估模型的训练中
  • 数据质量>数据规模:100K精选数据训练的14B模型超越3M+数据训练的大模型,强调了multi-stage过滤(三策略一致性+难度过滤)的重要性
  • 目标语推理的可解释性价值:虽然eng推理准确率更高,但tgt推理对低资源语言用户的可访问性和trust至关重要,微调能有效缩小差距

局限性 / 可改进方向

  • 教师模型GPT-OSS-120B的蒸馏输出本身存在语言偏差(英语最好),这会传递给mR3
  • 72种语言中低资源语言的覆盖可能不均匀(数据集主要来源偏向高/中资源语言)
  • 只用SFT训练,未充分探索RL后训练(如GRPO)的潜力
  • 人类评估仅覆盖12种语言(虽然已比同类工作多很多),未涵盖所有72种训练语言
  • 可改进方向:对低资源语言做专门的数据增强(如利用高资源→低资源的翻译+回译),以及探索在线RL微调是否能进一步提升

相关工作与启发

  • vs R3 (Anugraha et al., 2025):R3是mR3的英语版前身,仅用英语数据训练。mR3继承其rubric-agnostic框架并扩展到72语言,在多语言基准上大幅超越R3(m-RewardBench: 89.18 vs 88.07),同时R3在纯英语RewardBench上略胜(91.00 vs 90.79)
  • vs m-Prometheus (Pombal et al., 2025):仅6语言+480K训练数据,m-RewardBench 79.51 vs mR3的89.18,差距巨大
  • vs Nemotron-Multilingual-49B (Wang et al., 2025):49B参数仅支持13语言的pair-wise评估,mR3-14B以1/3.5参数量和7.2倍语言覆盖全面超越

评分

  • 新颖性: ⭐⭐⭐⭐ 72语言统一框架和三策略对齐数据构建新颖,但模型架构和训练方法(SFT)相对常规
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖7个基准、多种消融、课程学习对比、DPO下游验证、20人12语言人类评估,极为全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,表格和图表丰富,但论文较长(大量附录),核心贡献需从海量实验中提炼
  • 价值: ⭐⭐⭐⭐⭐ 填补了多语言奖励模型的重大空白,对非英语LLM对齐有直接实用价值

实验关键数据

模型 mR3-RewardBench 大小
GPT-OSS-120B ~88% 120B
mR3-Qwen-14B 88.46% 14B (9×小)

20名标注者/12语言人工评估更偏好 mR3 的推理质量。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个大规模多语言奖励推理模型
  • 实验充分度: ⭐⭐⭐⭐⭐ 72语言+人工评估
  • 价值: ⭐⭐⭐⭐⭐ 多语言LLM对齐的基础设施