M-RewardBench: Evaluating Reward Models in Multilingual Settings¶
会议: ACL 2025 (Long Paper)
arXiv: 2410.15522
代码: GitHub | Website
领域: LLM对齐 / 多语言 / 奖励模型评估
关键词: Reward Model, Multilingual Evaluation, RLHF, Preference Benchmark, Language Diversity
一句话总结¶
构建首个多语言奖励模型评估基准M-RewardBench(23种语言、2.87K偏好实例,覆盖对话/安全/推理/翻译四类能力),系统评估多种RM后发现英语与非英语RM性能存在显著差距,且翻译质量和语言资源量对RM表现有重要影响。
背景与动机¶
奖励模型(Reward Model)是LLM对齐的核心组件,驱动RLHF、DPO等训练流程。然而,当前RM主要在英语上训练和评估(如RewardBench),其多语言能力几乎未被研究。这在实际部署中是重大盲区——全球大多数用户使用非英语语言,但我们不知道RM在这些语言上是否能正确判断人类偏好。
核心问题¶
奖励模型在多语言环境下的表现如何?英语表现能否推广到其他语言?哪些因素影响RM的跨语言表现?
方法详解¶
整体框架¶
基于英语RewardBench数据集,通过高质量翻译构建23种语言的偏好评估数据集,然后在该数据集上系统评估多种奖励模型。
关键设计¶
- 多语言基准构建
- 从RewardBench中精选偏好实例,覆盖四种能力维度:Chat(对话质量)、Safety(安全性)、Reasoning(推理能力)、Translation(翻译能力,此维度为新增)
- 23种typologically多样的语言,覆盖不同语系、文字系统和资源水平
- 总计2.87K偏好实例(chosen/rejected对)
-
翻译流程注重质量控制
-
系统化评估框架
- 评估多种RM架构:classifier-based RM、generative RM (LLM-as-a-judge)、implicit RM (DPO-trained models)
- 每种RM在23种语言上的逐语言表现分析
-
跨语言偏好一致性分析(同一偏好实例在不同语言下RM的判断是否一致)
-
多维度分析
- 英语vs非英语性能差距
- 翻译质量对RM性能的影响
- 高资源vs低资源语言的表现差异
- RM跨语言偏好漂移(preference shift)
实验关键数据¶
核心发现: - 英语vs非英语差距显著:RM在英语上的表现明显优于非英语,说明当前RM的多语言泛化能力不足 - 偏好漂移:同一偏好实例翻译到不同语言后,RM的chosen/rejected判断可能发生反转 - 翻译质量正相关:翻译质量越高,RM在该语言上的表现越好 - 资源量正相关:高资源语言(如法语、德语)RM表现优于低资源语言(如斯瓦希里语) - 覆盖语言:中文、日语、韩语、阿拉伯语、印地语、法语、德语、西班牙语等23种
消融实验要点¶
- Translation维度是新增的评估维度,反映RM对翻译质量的判断能力
- 不同RM架构在不同语言上的表现差异较大,没有一种架构在所有语言上最优
亮点¶
- 填补重要空白:首个针对奖励模型的多语言评估基准,对LLM对齐的国际化部署有直接指导意义
- 发现偏好漂移现象:揭示了RM在跨语言场景下的脆弱性——同一偏好在不同语言下判断不一致
- 翻译质量→RM性能的因果链:为提升多语言RM提供了明确方向(先提升翻译/语言覆盖质量)
- 23种语言、多架构全面评估:覆盖度和系统性在该方向是首创
局限性 / 可改进方向¶
- 基于翻译构建的基准可能引入翻译偏差(translationese),不完全等同于原生多语言偏好
- 2.87K实例规模较小,每种语言约125条,统计显著性可能不足
- 未涉及code-switching或mixed-language场景
- 主要分析了翻译质量和资源量两个因素,其他因素(如文化差异、语言结构差异)未深入探讨
与相关工作的对比¶
- vs RewardBench:仅英语、单语言;M-RewardBench扩展到23种语言
- vs 多语言LLM评估(MEGA, XTREME等):这些评估LLM本身的多语言能力;M-RewardBench专注于奖励模型这一特殊组件
- vs 多语言RLHF/对齐工作:之前少有工作评估RM在多语言下的表现,本文是该方向的开创性工作
启发与关联¶
- 对于要部署到多语言场景的LLM对齐系统,需要重视RM的多语言能力差距
- "翻译质量→RM性能"的发现暗示,在低资源语言上可以通过提升翻译模型来间接提升对齐质量
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个多语言RM评估基准,方向重要且开创性
- 实验充分度: ⭐⭐⭐⭐ 23种语言、多种RM架构、多维分析,但每语言数据量偏小
- 写作质量: ⭐⭐⭐⭐ 结构清晰,发现有条理
- 对我的价值: ⭐⭐⭐ 多语言对齐是重要方向,基准设计思路有参考价值