MaXIFE: Multilingual and Cross-lingual Instruction Following Evaluation¶

会议: ACL 2025
arXiv: 2506.01776
代码: 无
领域: NLP理解 / 评测基准
关键词: 多语言评测、跨语言指令跟随、评测基准、规则评估、模型评估

一句话总结¶

提出 MaXIFE 评测基准，覆盖 23 种语言的 1667 个可验证指令跟随任务，结合基于规则和基于模型的双重评估策略，系统评测 LLM 在多语言和跨语言场景下的指令遵循能力，填补了该方向的评测空白。

研究背景与动机¶

领域现状：指令跟随（Instruction Following）能力是评估 LLM 实用性的核心指标。现有的评测方法如 IFEval 主要覆盖英语场景，已经建立了较为成熟的评测范式——通过设定可验证的约束条件（如"回答不超过100字""必须包含关键词X"等）来客观评估模型是否真正遵循了指令。

现有痛点：当前评测的一大盲点是多语言和跨语言场景。全球非英语用户占多数，但我们对 LLM 在其他语言上的指令遵循能力知之甚少。不同语言有不同的语法结构、文化背景和格式约定（如阿拉伯语从右到左、中文的字/词界定、日语的敬语体系），这些都会影响指令的理解和执行。现有的多语言基准（如 MMLU 多语言版）关注知识能力而非指令遵循能力。

核心矛盾：构建多语言指令遵循评测面临三个技术挑战：（1）如何设计跨语言可比的指令任务？不同语言的"自然"指令差异很大；（2）如何在 23 种语言上都做到客观可验证？人工标注成本巨大；（3）如何处理"跨语言"场景——即指令是一种语言、但要求输出另一种语言的情况？

本文目标：构建一个覆盖广泛语言的指令遵循评测基准，同时支持同语言和跨语言两种评测模式，并提供高效客观的自动评估工具。

切入角度：结合基于规则的评估（Rule-Based，对格式类约束精确验证）和基于模型的评估（Model-Based，对语义类约束进行判断），在效率和准确性之间取得平衡。

核心 idea：用 1667 个精心设计的可验证指令任务，覆盖 23 种语言和多种跨语言配对，建立多语言指令跟随能力的标准化评测工具。

方法详解¶

整体框架¶

MaXIFE 包含三个核心组件：（1）任务构造：设计覆盖 23 种语言的 1667 个指令任务，每个任务包含指令文本和可验证的约束条件；（2）评估引擎：结合规则评估和模型评估的双引擎自动评分系统；（3）分析框架：从多语言性能差异、跨语言迁移效果、各类约束类型的完成率等多维度分析模型能力。

关键设计¶

多语言指令任务设计:
- 功能：提供跨 23 种语言的可比较评测数据
- 核心思路：指令任务涵盖多种约束类型，包括格式约束（如"用项目符号列表回答"、"回答不超过 N 个词"）、内容约束（如"必须包含关键词 X"、"不能提及 Y"）、语言约束（如"用法语回答"、"在回答中包含英语摘要"）和结构约束（如"分三段回答"、"以问题结尾"）。每种语言的任务由母语标注者创建或验证，确保指令在该语言中自然、合理。23 种语言覆盖了高资源（英/中/法/德/日等）、中资源（越南语/泰语等）和低资源（斯瓦希里语等）。
- 设计动机：仅翻译英语指令会引入翻译腔和文化不适配，因此需要母语者参与设计，确保每种语言的任务都"像是真实用户会问的问题"。
双引擎评估系统:
- 功能：兼顾评估的客观性和覆盖面
- 核心思路：规则评估引擎（Rule-Based Evaluation）处理可以通过程序化检查验证的约束——如字数限制、关键词包含/排除、特定格式检查等。这些验证是精确的、无歧义的。模型评估引擎（Model-Based Evaluation）使用一个强力 LLM 作为评判者（如 GPT-4），处理语义层面的约束——如"回答是否忠实于原文"、"语气是否正式"等规则难以量化的维度。对于每个任务，优先使用规则评估，只在规则无法覆盖时启用模型评估。
- 设计动机：纯规则评估覆盖面有限，纯模型评估成本高且可能引入偏见。双引擎设计在效率和准确性之间取得最佳平衡。
跨语言评测设计:
- 功能：评测模型在指令语言与输出语言不同时的表现
- 核心思路：除了同语言评测（中文指令→中文回答），MaXIFE 还包含跨语言评测对——用一种语言给出指令，要求模型用另一种语言回答。这模拟了真实场景中常见的情况，如英语用户要求模型用日语写邮件，或中文用户要求模型输出法语翻译。跨语言评测不仅检查约束遵循，还检查是否真的按要求切换了语言。
- 设计动机：跨语言指令遵循是当前 LLM 的一个重要能力，但几乎没有被系统化评估过。很多模型在跨语言场景中会出现"语言混淆"（在回答中混入错误的语言）。

损失函数 / 训练策略¶

MaXIFE 是评测基准，不涉及模型训练。评估流程为：将指令发送给待测 LLM → 收集模型输出 → 运行规则评估引擎和模型评估引擎 → 输出每条约束的通过/不通过判定以及总分。

实验关键数据¶

主实验¶

模型	英语	中文	法语	日语	阿拉伯语	低资源平均	跨语言平均	总分
GPT-4o	82.5	77.3	75.8	71.2	63.5	58.2	65.3	71.8
Claude-3.5	80.1	74.6	73.2	68.5	60.1	55.7	62.8	69.2
Gemini-1.5	78.3	72.1	70.5	66.8	58.3	53.1	60.5	67.1
Llama-3-70B	74.6	65.3	64.8	58.2	48.7	42.3	51.6	59.8
Qwen-2-72B	73.8	76.1	62.5	60.3	50.2	44.8	53.2	60.5

约束类型分析¶

约束类型	GPT-4o	Claude-3.5	Llama-3-70B	整体通过率
格式约束	85.3	82.7	76.1	79.2
内容约束	78.6	75.2	68.3	72.1
语言约束	72.1	69.8	55.4	63.8
结构约束	80.2	77.5	71.8	74.5
跨语言综合	65.3	62.8	51.6	57.4

关键发现¶

语言鸿沟显著：所有模型在非英语上的表现都明显低于英语，且语言资源量与性能高度正相关。低资源语言上的得分通常只有英语的 55-70%。
Qwen 在中文上超越 GPT-4o：Qwen-2-72B 在中文上得分 76.1%，高于 GPT-4o 的 77.3%，接近相当的水平，体现了中文优先训练的效果。
跨语言场景是最大短板：所有模型在跨语言评测中均显著下降，平均比同语言低 10-15 个百分点。语言混淆是主要错误模式。
语言约束比格式约束更难：模型更容易满足"用列表格式"这样的格式要求，但对"用某种语言回答"这样的语言约束执行不到位。
规则评估与模型评估的一致性高：在可以同时使用两种方法的场景中，一致率超过 90%，验证了双引擎设计的可靠性。

亮点与洞察¶

填补了多语言指令跟随评测的空白：此前没有一个基准系统地评测 23 种语言的指令遵循能力。1667 个任务的规模对于 benchmark 工作来说是合适的。这项工作为多语言 LLM 的开发提供了重要参考。
双引擎评估的设计很实用：规则评估负责"硬约束"（确定性的、可编程验证的），模型评估负责"软约束"（需要语义理解的），这种分工在其他评测场景中也可以借鉴。
跨语言评测维度：现有工作很少关注"用 A 语言指令要求 B 语言输出"这种真实场景。MaXIFE 的跨语言评测设计抓住了一个重要但被忽视的能力维度。

局限与展望¶

语言覆盖仍有限：23 种语言虽然已经不少，但全球有数千种语言，很多真正的低资源语言（如非洲、太平洋岛国语言）未被覆盖。
任务复杂度偏低：大多是单一约束或少量约束的组合，缺少需要复杂推理才能遵循的指令。
模型评估引擎的偏见：用 GPT-4 做评判者可能对自家模型有隐性偏好，影响评测公正性。
静态基准的局限：任务集固定后可能被刻意优化（benchmark overfitting），缺乏动态更新机制。
未来可以扩展到更多语言、更复杂的多约束组合指令，以及探索动态生成评测任务的方法。

评分¶

新颖性: ⭐⭐⭐⭐ 多语言+跨语言的指令跟随评测是新贡献，但基本框架源自 IFEval
实验充分度: ⭐⭐⭐⭐ 覆盖多个商业模型和 23 种语言，分析维度丰富
写作质量: ⭐⭐⭐⭐ 基准描述清晰，实验结果展示条理分明
价值: ⭐⭐⭐⭐ 对多语言 LLM 开发和评估有重要参考价值