跳转至

M-RewardBench: Evaluating Reward Models in Multilingual Settings

会议: ACL 2025 (Long Paper)
arXiv: 2410.15522
代码: GitHub | Website
领域: LLM对齐 / 多语言 / 奖励模型评估
关键词: Reward Model, Multilingual Evaluation, RLHF, Preference Benchmark, Language Diversity

一句话总结

构建首个多语言奖励模型评估基准M-RewardBench(23种语言、2.87K偏好实例,覆盖对话/安全/推理/翻译四类能力),系统评估多种RM后发现英语与非英语RM性能存在显著差距,且翻译质量和语言资源量对RM表现有重要影响。

背景与动机

奖励模型(Reward Model)是LLM对齐的核心组件,驱动RLHF、DPO等训练流程。然而,当前RM主要在英语上训练和评估(如RewardBench),其多语言能力几乎未被研究。这在实际部署中是重大盲区——全球大多数用户使用非英语语言,但我们不知道RM在这些语言上是否能正确判断人类偏好。

核心问题

奖励模型在多语言环境下的表现如何?英语表现能否推广到其他语言?哪些因素影响RM的跨语言表现?

方法详解

整体框架

基于英语RewardBench数据集,通过高质量翻译构建23种语言的偏好评估数据集,然后在该数据集上系统评估多种奖励模型。

关键设计

  1. 多语言基准构建
  2. 从RewardBench中精选偏好实例,覆盖四种能力维度:Chat(对话质量)、Safety(安全性)、Reasoning(推理能力)、Translation(翻译能力,此维度为新增)
  3. 23种typologically多样的语言,覆盖不同语系、文字系统和资源水平
  4. 总计2.87K偏好实例(chosen/rejected对)
  5. 翻译流程注重质量控制

  6. 系统化评估框架

  7. 评估多种RM架构:classifier-based RM、generative RM (LLM-as-a-judge)、implicit RM (DPO-trained models)
  8. 每种RM在23种语言上的逐语言表现分析
  9. 跨语言偏好一致性分析(同一偏好实例在不同语言下RM的判断是否一致)

  10. 多维度分析

  11. 英语vs非英语性能差距
  12. 翻译质量对RM性能的影响
  13. 高资源vs低资源语言的表现差异
  14. RM跨语言偏好漂移(preference shift)

实验关键数据

核心发现: - 英语vs非英语差距显著:RM在英语上的表现明显优于非英语,说明当前RM的多语言泛化能力不足 - 偏好漂移:同一偏好实例翻译到不同语言后,RM的chosen/rejected判断可能发生反转 - 翻译质量正相关:翻译质量越高,RM在该语言上的表现越好 - 资源量正相关:高资源语言(如法语、德语)RM表现优于低资源语言(如斯瓦希里语) - 覆盖语言:中文、日语、韩语、阿拉伯语、印地语、法语、德语、西班牙语等23种

消融实验要点

  • Translation维度是新增的评估维度,反映RM对翻译质量的判断能力
  • 不同RM架构在不同语言上的表现差异较大,没有一种架构在所有语言上最优

亮点

  • 填补重要空白:首个针对奖励模型的多语言评估基准,对LLM对齐的国际化部署有直接指导意义
  • 发现偏好漂移现象:揭示了RM在跨语言场景下的脆弱性——同一偏好在不同语言下判断不一致
  • 翻译质量→RM性能的因果链:为提升多语言RM提供了明确方向(先提升翻译/语言覆盖质量)
  • 23种语言、多架构全面评估:覆盖度和系统性在该方向是首创

局限性 / 可改进方向

  • 基于翻译构建的基准可能引入翻译偏差(translationese),不完全等同于原生多语言偏好
  • 2.87K实例规模较小,每种语言约125条,统计显著性可能不足
  • 未涉及code-switching或mixed-language场景
  • 主要分析了翻译质量和资源量两个因素,其他因素(如文化差异、语言结构差异)未深入探讨

与相关工作的对比

  • vs RewardBench:仅英语、单语言;M-RewardBench扩展到23种语言
  • vs 多语言LLM评估(MEGA, XTREME等):这些评估LLM本身的多语言能力;M-RewardBench专注于奖励模型这一特殊组件
  • vs 多语言RLHF/对齐工作:之前少有工作评估RM在多语言下的表现,本文是该方向的开创性工作

启发与关联

  • 对于要部署到多语言场景的LLM对齐系统,需要重视RM的多语言能力差距
  • "翻译质量→RM性能"的发现暗示,在低资源语言上可以通过提升翻译模型来间接提升对齐质量

评分

  • 新颖性: ⭐⭐⭐⭐ 首个多语言RM评估基准,方向重要且开创性
  • 实验充分度: ⭐⭐⭐⭐ 23种语言、多种RM架构、多维分析,但每语言数据量偏小
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,发现有条理
  • 对我的价值: ⭐⭐⭐ 多语言对齐是重要方向,基准设计思路有参考价值