M-RewardBench: Evaluating Reward Models in Multilingual Settings¶

会议: ACL 2025 (Long Paper)
arXiv: 2410.15522
代码: GitHub | Website
领域: LLM对齐 / 多语言 / 奖励模型评估
关键词: Reward Model, Multilingual Evaluation, RLHF, Preference Benchmark, Language Diversity

一句话总结¶

构建首个多语言奖励模型评估基准M-RewardBench（23种语言、2.87K偏好实例，覆盖对话/安全/推理/翻译四类能力），系统评估多种RM后发现英语与非英语RM性能存在显著差距，且翻译质量和语言资源量对RM表现有重要影响。

背景与动机¶

奖励模型（Reward Model）是LLM对齐的核心组件，驱动RLHF、DPO等训练流程。然而，当前RM主要在英语上训练和评估（如RewardBench），其多语言能力几乎未被研究。这在实际部署中是重大盲区——全球大多数用户使用非英语语言，但我们不知道RM在这些语言上是否能正确判断人类偏好。

核心问题¶

奖励模型在多语言环境下的表现如何？英语表现能否推广到其他语言？哪些因素影响RM的跨语言表现？

方法详解¶

整体框架¶

基于英语RewardBench数据集，通过高质量翻译构建23种语言的偏好评估数据集，然后在该数据集上系统评估多种奖励模型。

关键设计¶

多语言基准构建
从RewardBench中精选偏好实例，覆盖四种能力维度：Chat（对话质量）、Safety（安全性）、Reasoning（推理能力）、Translation（翻译能力，此维度为新增）
23种typologically多样的语言，覆盖不同语系、文字系统和资源水平
总计2.87K偏好实例（chosen/rejected对）
翻译流程注重质量控制
系统化评估框架
评估多种RM架构：classifier-based RM、generative RM (LLM-as-a-judge)、implicit RM (DPO-trained models)
每种RM在23种语言上的逐语言表现分析
跨语言偏好一致性分析（同一偏好实例在不同语言下RM的判断是否一致）
多维度分析
英语vs非英语性能差距
翻译质量对RM性能的影响
高资源vs低资源语言的表现差异
RM跨语言偏好漂移（preference shift）

实验关键数据¶

核心发现： - 英语vs非英语差距显著：RM在英语上的表现明显优于非英语，说明当前RM的多语言泛化能力不足 - 偏好漂移：同一偏好实例翻译到不同语言后，RM的chosen/rejected判断可能发生反转 - 翻译质量正相关：翻译质量越高，RM在该语言上的表现越好 - 资源量正相关：高资源语言（如法语、德语）RM表现优于低资源语言（如斯瓦希里语） - 覆盖语言：中文、日语、韩语、阿拉伯语、印地语、法语、德语、西班牙语等23种

消融实验要点¶

Translation维度是新增的评估维度，反映RM对翻译质量的判断能力
不同RM架构在不同语言上的表现差异较大，没有一种架构在所有语言上最优

亮点¶

填补重要空白：首个针对奖励模型的多语言评估基准，对LLM对齐的国际化部署有直接指导意义
发现偏好漂移现象：揭示了RM在跨语言场景下的脆弱性——同一偏好在不同语言下判断不一致
翻译质量→RM性能的因果链：为提升多语言RM提供了明确方向（先提升翻译/语言覆盖质量）
23种语言、多架构全面评估：覆盖度和系统性在该方向是首创

局限性 / 可改进方向¶

基于翻译构建的基准可能引入翻译偏差（translationese），不完全等同于原生多语言偏好
2.87K实例规模较小，每种语言约125条，统计显著性可能不足
未涉及code-switching或mixed-language场景
主要分析了翻译质量和资源量两个因素，其他因素（如文化差异、语言结构差异）未深入探讨

与相关工作的对比¶

vs RewardBench：仅英语、单语言；M-RewardBench扩展到23种语言
vs 多语言LLM评估（MEGA, XTREME等）：这些评估LLM本身的多语言能力；M-RewardBench专注于奖励模型这一特殊组件
vs 多语言RLHF/对齐工作：之前少有工作评估RM在多语言下的表现，本文是该方向的开创性工作

启发与关联¶

对于要部署到多语言场景的LLM对齐系统，需要重视RM的多语言能力差距
"翻译质量→RM性能"的发现暗示，在低资源语言上可以通过提升翻译模型来间接提升对齐质量

评分¶

新颖性: ⭐⭐⭐⭐ 首个多语言RM评估基准，方向重要且开创性
实验充分度: ⭐⭐⭐⭐ 23种语言、多种RM架构、多维分析，但每语言数据量偏小
写作质量: ⭐⭐⭐⭐ 结构清晰，发现有条理
对我的价值: ⭐⭐⭐ 多语言对齐是重要方向，基准设计思路有参考价值