MaXIFE: Multilingual and Cross-lingual Instruction Following Evaluation¶
会议: ACL 2025
arXiv: 2506.01776
代码: 无
领域: NLP理解 / 评测基准
关键词: 多语言评测、跨语言指令跟随、评测基准、规则评估、模型评估
一句话总结¶
提出 MaXIFE 评测基准,覆盖 23 种语言的 1667 个可验证指令跟随任务,结合基于规则和基于模型的双重评估策略,系统评测 LLM 在多语言和跨语言场景下的指令遵循能力,填补了该方向的评测空白。
研究背景与动机¶
领域现状:指令跟随(Instruction Following)能力是评估 LLM 实用性的核心指标。现有的评测方法如 IFEval 主要覆盖英语场景,已经建立了较为成熟的评测范式——通过设定可验证的约束条件(如"回答不超过100字""必须包含关键词X"等)来客观评估模型是否真正遵循了指令。
现有痛点:当前评测的一大盲点是多语言和跨语言场景。全球非英语用户占多数,但我们对 LLM 在其他语言上的指令遵循能力知之甚少。不同语言有不同的语法结构、文化背景和格式约定(如阿拉伯语从右到左、中文的字/词界定、日语的敬语体系),这些都会影响指令的理解和执行。现有的多语言基准(如 MMLU 多语言版)关注知识能力而非指令遵循能力。
核心矛盾:构建多语言指令遵循评测面临三个技术挑战:(1)如何设计跨语言可比的指令任务?不同语言的"自然"指令差异很大;(2)如何在 23 种语言上都做到客观可验证?人工标注成本巨大;(3)如何处理"跨语言"场景——即指令是一种语言、但要求输出另一种语言的情况?
本文目标:构建一个覆盖广泛语言的指令遵循评测基准,同时支持同语言和跨语言两种评测模式,并提供高效客观的自动评估工具。
切入角度:结合基于规则的评估(Rule-Based,对格式类约束精确验证)和基于模型的评估(Model-Based,对语义类约束进行判断),在效率和准确性之间取得平衡。
核心 idea:用 1667 个精心设计的可验证指令任务,覆盖 23 种语言和多种跨语言配对,建立多语言指令跟随能力的标准化评测工具。
方法详解¶
整体框架¶
MaXIFE 包含三个核心组件:(1)任务构造:设计覆盖 23 种语言的 1667 个指令任务,每个任务包含指令文本和可验证的约束条件;(2)评估引擎:结合规则评估和模型评估的双引擎自动评分系统;(3)分析框架:从多语言性能差异、跨语言迁移效果、各类约束类型的完成率等多维度分析模型能力。
关键设计¶
-
多语言指令任务设计:
- 功能:提供跨 23 种语言的可比较评测数据
- 核心思路:指令任务涵盖多种约束类型,包括格式约束(如"用项目符号列表回答"、"回答不超过 N 个词")、内容约束(如"必须包含关键词 X"、"不能提及 Y")、语言约束(如"用法语回答"、"在回答中包含英语摘要")和结构约束(如"分三段回答"、"以问题结尾")。每种语言的任务由母语标注者创建或验证,确保指令在该语言中自然、合理。23 种语言覆盖了高资源(英/中/法/德/日等)、中资源(越南语/泰语等)和低资源(斯瓦希里语等)。
- 设计动机:仅翻译英语指令会引入翻译腔和文化不适配,因此需要母语者参与设计,确保每种语言的任务都"像是真实用户会问的问题"。
-
双引擎评估系统:
- 功能:兼顾评估的客观性和覆盖面
- 核心思路:规则评估引擎(Rule-Based Evaluation)处理可以通过程序化检查验证的约束——如字数限制、关键词包含/排除、特定格式检查等。这些验证是精确的、无歧义的。模型评估引擎(Model-Based Evaluation)使用一个强力 LLM 作为评判者(如 GPT-4),处理语义层面的约束——如"回答是否忠实于原文"、"语气是否正式"等规则难以量化的维度。对于每个任务,优先使用规则评估,只在规则无法覆盖时启用模型评估。
- 设计动机:纯规则评估覆盖面有限,纯模型评估成本高且可能引入偏见。双引擎设计在效率和准确性之间取得最佳平衡。
-
跨语言评测设计:
- 功能:评测模型在指令语言与输出语言不同时的表现
- 核心思路:除了同语言评测(中文指令→中文回答),MaXIFE 还包含跨语言评测对——用一种语言给出指令,要求模型用另一种语言回答。这模拟了真实场景中常见的情况,如英语用户要求模型用日语写邮件,或中文用户要求模型输出法语翻译。跨语言评测不仅检查约束遵循,还检查是否真的按要求切换了语言。
- 设计动机:跨语言指令遵循是当前 LLM 的一个重要能力,但几乎没有被系统化评估过。很多模型在跨语言场景中会出现"语言混淆"(在回答中混入错误的语言)。
损失函数 / 训练策略¶
MaXIFE 是评测基准,不涉及模型训练。评估流程为:将指令发送给待测 LLM → 收集模型输出 → 运行规则评估引擎和模型评估引擎 → 输出每条约束的通过/不通过判定以及总分。
实验关键数据¶
主实验¶
| 模型 | 英语 | 中文 | 法语 | 日语 | 阿拉伯语 | 低资源平均 | 跨语言平均 | 总分 |
|---|---|---|---|---|---|---|---|---|
| GPT-4o | 82.5 | 77.3 | 75.8 | 71.2 | 63.5 | 58.2 | 65.3 | 71.8 |
| Claude-3.5 | 80.1 | 74.6 | 73.2 | 68.5 | 60.1 | 55.7 | 62.8 | 69.2 |
| Gemini-1.5 | 78.3 | 72.1 | 70.5 | 66.8 | 58.3 | 53.1 | 60.5 | 67.1 |
| Llama-3-70B | 74.6 | 65.3 | 64.8 | 58.2 | 48.7 | 42.3 | 51.6 | 59.8 |
| Qwen-2-72B | 73.8 | 76.1 | 62.5 | 60.3 | 50.2 | 44.8 | 53.2 | 60.5 |
约束类型分析¶
| 约束类型 | GPT-4o | Claude-3.5 | Llama-3-70B | 整体通过率 |
|---|---|---|---|---|
| 格式约束 | 85.3 | 82.7 | 76.1 | 79.2 |
| 内容约束 | 78.6 | 75.2 | 68.3 | 72.1 |
| 语言约束 | 72.1 | 69.8 | 55.4 | 63.8 |
| 结构约束 | 80.2 | 77.5 | 71.8 | 74.5 |
| 跨语言综合 | 65.3 | 62.8 | 51.6 | 57.4 |
关键发现¶
- 语言鸿沟显著:所有模型在非英语上的表现都明显低于英语,且语言资源量与性能高度正相关。低资源语言上的得分通常只有英语的 55-70%。
- Qwen 在中文上超越 GPT-4o:Qwen-2-72B 在中文上得分 76.1%,高于 GPT-4o 的 77.3%,接近相当的水平,体现了中文优先训练的效果。
- 跨语言场景是最大短板:所有模型在跨语言评测中均显著下降,平均比同语言低 10-15 个百分点。语言混淆是主要错误模式。
- 语言约束比格式约束更难:模型更容易满足"用列表格式"这样的格式要求,但对"用某种语言回答"这样的语言约束执行不到位。
- 规则评估与模型评估的一致性高:在可以同时使用两种方法的场景中,一致率超过 90%,验证了双引擎设计的可靠性。
亮点与洞察¶
- 填补了多语言指令跟随评测的空白:此前没有一个基准系统地评测 23 种语言的指令遵循能力。1667 个任务的规模对于 benchmark 工作来说是合适的。这项工作为多语言 LLM 的开发提供了重要参考。
- 双引擎评估的设计很实用:规则评估负责"硬约束"(确定性的、可编程验证的),模型评估负责"软约束"(需要语义理解的),这种分工在其他评测场景中也可以借鉴。
- 跨语言评测维度:现有工作很少关注"用 A 语言指令要求 B 语言输出"这种真实场景。MaXIFE 的跨语言评测设计抓住了一个重要但被忽视的能力维度。
局限与展望¶
- 语言覆盖仍有限:23 种语言虽然已经不少,但全球有数千种语言,很多真正的低资源语言(如非洲、太平洋岛国语言)未被覆盖。
- 任务复杂度偏低:大多是单一约束或少量约束的组合,缺少需要复杂推理才能遵循的指令。
- 模型评估引擎的偏见:用 GPT-4 做评判者可能对自家模型有隐性偏好,影响评测公正性。
- 静态基准的局限:任务集固定后可能被刻意优化(benchmark overfitting),缺乏动态更新机制。
- 未来可以扩展到更多语言、更复杂的多约束组合指令,以及探索动态生成评测任务的方法。
相关工作与启发¶
- vs IFEval: IFEval 是 MaXIFE 最直接的前身,但仅覆盖英语。MaXIFE 可以看作 IFEval 的多语言扩展版,同时增加了跨语言评测维度。
- vs MMLU-multilingual: MMLU 评测的是知识能力而非指令跟随能力,两者关注的维度不同。一个模型可以知识丰富但不善于遵循格式要求,反之亦然。
- vs xP3/MultiBench: 这些多语言基准关注生成质量或任务完成度,而非指令的精确遵循。MaXIFE 通过可验证约束提供了更客观的评估。
评分¶
- 新颖性: ⭐⭐⭐⭐ 多语言+跨语言的指令跟随评测是新贡献,但基本框架源自 IFEval
- 实验充分度: ⭐⭐⭐⭐ 覆盖多个商业模型和 23 种语言,分析维度丰富
- 写作质量: ⭐⭐⭐⭐ 基准描述清晰,实验结果展示条理分明
- 价值: ⭐⭐⭐⭐ 对多语言 LLM 开发和评估有重要参考价值
相关论文¶
- [ACL 2025] Marco-Bench-MIF: On Multilingual Instruction-Following Capability of Large Language Models
- [ACL 2025] Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs
- [ACL 2025] Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models
- [ACL 2025] SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning
- [ACL 2025] CLIX: Cross-Lingual Explanations of Idiomatic Expressions