跳转至

MaXIFE: Multilingual and Cross-lingual Instruction Following Evaluation

会议: ACL 2025
arXiv: 2506.01776
代码: 无
领域: NLP理解 / 评测基准
关键词: 多语言评测、跨语言指令跟随、评测基准、规则评估、模型评估

一句话总结

提出 MaXIFE 评测基准,覆盖 23 种语言的 1667 个可验证指令跟随任务,结合基于规则和基于模型的双重评估策略,系统评测 LLM 在多语言和跨语言场景下的指令遵循能力,填补了该方向的评测空白。

研究背景与动机

领域现状:指令跟随(Instruction Following)能力是评估 LLM 实用性的核心指标。现有的评测方法如 IFEval 主要覆盖英语场景,已经建立了较为成熟的评测范式——通过设定可验证的约束条件(如"回答不超过100字""必须包含关键词X"等)来客观评估模型是否真正遵循了指令。

现有痛点:当前评测的一大盲点是多语言和跨语言场景。全球非英语用户占多数,但我们对 LLM 在其他语言上的指令遵循能力知之甚少。不同语言有不同的语法结构、文化背景和格式约定(如阿拉伯语从右到左、中文的字/词界定、日语的敬语体系),这些都会影响指令的理解和执行。现有的多语言基准(如 MMLU 多语言版)关注知识能力而非指令遵循能力。

核心矛盾:构建多语言指令遵循评测面临三个技术挑战:(1)如何设计跨语言可比的指令任务?不同语言的"自然"指令差异很大;(2)如何在 23 种语言上都做到客观可验证?人工标注成本巨大;(3)如何处理"跨语言"场景——即指令是一种语言、但要求输出另一种语言的情况?

本文目标:构建一个覆盖广泛语言的指令遵循评测基准,同时支持同语言和跨语言两种评测模式,并提供高效客观的自动评估工具。

切入角度:结合基于规则的评估(Rule-Based,对格式类约束精确验证)和基于模型的评估(Model-Based,对语义类约束进行判断),在效率和准确性之间取得平衡。

核心 idea:用 1667 个精心设计的可验证指令任务,覆盖 23 种语言和多种跨语言配对,建立多语言指令跟随能力的标准化评测工具。

方法详解

整体框架

MaXIFE 包含三个核心组件:(1)任务构造:设计覆盖 23 种语言的 1667 个指令任务,每个任务包含指令文本和可验证的约束条件;(2)评估引擎:结合规则评估和模型评估的双引擎自动评分系统;(3)分析框架:从多语言性能差异、跨语言迁移效果、各类约束类型的完成率等多维度分析模型能力。

关键设计

  1. 多语言指令任务设计:

    • 功能:提供跨 23 种语言的可比较评测数据
    • 核心思路:指令任务涵盖多种约束类型,包括格式约束(如"用项目符号列表回答"、"回答不超过 N 个词")、内容约束(如"必须包含关键词 X"、"不能提及 Y")、语言约束(如"用法语回答"、"在回答中包含英语摘要")和结构约束(如"分三段回答"、"以问题结尾")。每种语言的任务由母语标注者创建或验证,确保指令在该语言中自然、合理。23 种语言覆盖了高资源(英/中/法/德/日等)、中资源(越南语/泰语等)和低资源(斯瓦希里语等)。
    • 设计动机:仅翻译英语指令会引入翻译腔和文化不适配,因此需要母语者参与设计,确保每种语言的任务都"像是真实用户会问的问题"。
  2. 双引擎评估系统:

    • 功能:兼顾评估的客观性和覆盖面
    • 核心思路:规则评估引擎(Rule-Based Evaluation)处理可以通过程序化检查验证的约束——如字数限制、关键词包含/排除、特定格式检查等。这些验证是精确的、无歧义的。模型评估引擎(Model-Based Evaluation)使用一个强力 LLM 作为评判者(如 GPT-4),处理语义层面的约束——如"回答是否忠实于原文"、"语气是否正式"等规则难以量化的维度。对于每个任务,优先使用规则评估,只在规则无法覆盖时启用模型评估。
    • 设计动机:纯规则评估覆盖面有限,纯模型评估成本高且可能引入偏见。双引擎设计在效率和准确性之间取得最佳平衡。
  3. 跨语言评测设计:

    • 功能:评测模型在指令语言与输出语言不同时的表现
    • 核心思路:除了同语言评测(中文指令→中文回答),MaXIFE 还包含跨语言评测对——用一种语言给出指令,要求模型用另一种语言回答。这模拟了真实场景中常见的情况,如英语用户要求模型用日语写邮件,或中文用户要求模型输出法语翻译。跨语言评测不仅检查约束遵循,还检查是否真的按要求切换了语言。
    • 设计动机:跨语言指令遵循是当前 LLM 的一个重要能力,但几乎没有被系统化评估过。很多模型在跨语言场景中会出现"语言混淆"(在回答中混入错误的语言)。

损失函数 / 训练策略

MaXIFE 是评测基准,不涉及模型训练。评估流程为:将指令发送给待测 LLM → 收集模型输出 → 运行规则评估引擎和模型评估引擎 → 输出每条约束的通过/不通过判定以及总分。

实验关键数据

主实验

模型 英语 中文 法语 日语 阿拉伯语 低资源平均 跨语言平均 总分
GPT-4o 82.5 77.3 75.8 71.2 63.5 58.2 65.3 71.8
Claude-3.5 80.1 74.6 73.2 68.5 60.1 55.7 62.8 69.2
Gemini-1.5 78.3 72.1 70.5 66.8 58.3 53.1 60.5 67.1
Llama-3-70B 74.6 65.3 64.8 58.2 48.7 42.3 51.6 59.8
Qwen-2-72B 73.8 76.1 62.5 60.3 50.2 44.8 53.2 60.5

约束类型分析

约束类型 GPT-4o Claude-3.5 Llama-3-70B 整体通过率
格式约束 85.3 82.7 76.1 79.2
内容约束 78.6 75.2 68.3 72.1
语言约束 72.1 69.8 55.4 63.8
结构约束 80.2 77.5 71.8 74.5
跨语言综合 65.3 62.8 51.6 57.4

关键发现

  • 语言鸿沟显著:所有模型在非英语上的表现都明显低于英语,且语言资源量与性能高度正相关。低资源语言上的得分通常只有英语的 55-70%。
  • Qwen 在中文上超越 GPT-4o:Qwen-2-72B 在中文上得分 76.1%,高于 GPT-4o 的 77.3%,接近相当的水平,体现了中文优先训练的效果。
  • 跨语言场景是最大短板:所有模型在跨语言评测中均显著下降,平均比同语言低 10-15 个百分点。语言混淆是主要错误模式。
  • 语言约束比格式约束更难:模型更容易满足"用列表格式"这样的格式要求,但对"用某种语言回答"这样的语言约束执行不到位。
  • 规则评估与模型评估的一致性高:在可以同时使用两种方法的场景中,一致率超过 90%,验证了双引擎设计的可靠性。

亮点与洞察

  • 填补了多语言指令跟随评测的空白:此前没有一个基准系统地评测 23 种语言的指令遵循能力。1667 个任务的规模对于 benchmark 工作来说是合适的。这项工作为多语言 LLM 的开发提供了重要参考。
  • 双引擎评估的设计很实用:规则评估负责"硬约束"(确定性的、可编程验证的),模型评估负责"软约束"(需要语义理解的),这种分工在其他评测场景中也可以借鉴。
  • 跨语言评测维度:现有工作很少关注"用 A 语言指令要求 B 语言输出"这种真实场景。MaXIFE 的跨语言评测设计抓住了一个重要但被忽视的能力维度。

局限与展望

  • 语言覆盖仍有限:23 种语言虽然已经不少,但全球有数千种语言,很多真正的低资源语言(如非洲、太平洋岛国语言)未被覆盖。
  • 任务复杂度偏低:大多是单一约束或少量约束的组合,缺少需要复杂推理才能遵循的指令。
  • 模型评估引擎的偏见:用 GPT-4 做评判者可能对自家模型有隐性偏好,影响评测公正性。
  • 静态基准的局限:任务集固定后可能被刻意优化(benchmark overfitting),缺乏动态更新机制。
  • 未来可以扩展到更多语言、更复杂的多约束组合指令,以及探索动态生成评测任务的方法。

相关工作与启发

  • vs IFEval: IFEval 是 MaXIFE 最直接的前身,但仅覆盖英语。MaXIFE 可以看作 IFEval 的多语言扩展版,同时增加了跨语言评测维度。
  • vs MMLU-multilingual: MMLU 评测的是知识能力而非指令跟随能力,两者关注的维度不同。一个模型可以知识丰富但不善于遵循格式要求,反之亦然。
  • vs xP3/MultiBench: 这些多语言基准关注生成质量或任务完成度,而非指令的精确遵循。MaXIFE 通过可验证约束提供了更客观的评估。

评分

  • 新颖性: ⭐⭐⭐⭐ 多语言+跨语言的指令跟随评测是新贡献,但基本框架源自 IFEval
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多个商业模型和 23 种语言,分析维度丰富
  • 写作质量: ⭐⭐⭐⭐ 基准描述清晰,实验结果展示条理分明
  • 价值: ⭐⭐⭐⭐ 对多语言 LLM 开发和评估有重要参考价值

相关论文