Marco-Bench-MIF: On Multilingual Instruction-Following Capability of Large Language Models¶

会议: ACL 2025
arXiv: 2507.11882
代码: GitHub
领域: LLM/NLP
关键词: multilingual benchmark, instruction following, localization, cross-lingual evaluation, IFEval

一句话总结¶

将英文IFEval基准扩展到30种语言并进行文化本地化，揭示LLM在多语言指令遵循中高/低资源语言间25-35%的准确率差距，以及机器翻译数据低估模型性能7-22%。

研究背景与动机¶

现有基准单语局限：IFEval等指令遵循评测基准主要面向英文，无法评估LLM在多语言场景下的真实能力。
机器翻译数据质量不足：Multi-IF等多语言数据集仅通过机器翻译生成，无法捕捉语言和文化层面的细微差异，导致评估结果失真。
语言特性适配缺失：不同语言存在独特的语言约束（如中文无大小写、日语被动语态结构不同），简单翻译无法处理这些差异。
文化语境本地化需求：指令中的文化引用（节日、地名、公司名）需要针对目标语言进行本地化替换，才能保证评测的文化相关性。
低资源语言被忽视：现有评测覆盖语言有限，约鲁巴语(yo)、尼泊尔语(ne)、哈萨克语(kk)等低资源语言的指令遵循能力几乎未被评估。
组合式指令理解是瓶颈：LLM在满足单个指令时表现尚可，但同时满足多个约束的prompt级准确率比指令级低10-20%，这一问题在多语言场景下更突出。

方法详解¶

整体框架¶

Marco-Bench-MIF采用三阶段流水线（预处理→翻译本地化→后处理），将IFEval的541条英文指令-响应对扩展到30种语言（覆盖6大语系），每种语言包含541条实例。结合自动翻译与两轮人工验证确保质量。

模块一：预处理——约束分类与过滤¶

基数维度：将指令分为单约束(SC, 49.9%)和多约束(MC, 50.1%)两类
类型维度：分为表达约束(EC, 如格式/结构要求)和内容约束(CC, 如包含特定信息)
采用渐进适配策略：先处理简单的SC+EC，再处理复杂的MC+CC，减少错误传播
数据过滤移除歧义指令，平衡约束类型分布

模块二：翻译与本地化¶

翻译流程：Google Translate初始翻译→双语专业译员校对→LLM辅助纠错
三步本地化方法：
词汇替换(Lexical Substitution)：替换文化特定术语（人名、地名），保持约束位置不变
主题转换(Topical Transposition)：将场景背景适配为目标文化熟悉的领域
语用重构(Pragmatic Restructuring)：使用目标语言的修辞习惯重新组织指令
依据十个社会语言学维度（历史背景、社会习俗、生活模式、地域特征等）进行文化本地化
对5种语言(ar, es, ms, yo, zh)创建MT基线与本地化版本的平行语料，用于对比实验

模块三：后处理——多层质量保证¶

自动模式检测+人工审查，针对六类常见翻译失败点：关键词、结束语、回显内容、附言一致性、大小写遵循、非拉丁文字中拉丁字符频率
双LLM交叉验证：一个LLM生成输出，另一个分析失败案例，区分模型能力限制、指令集缺陷和评估逻辑漏洞
评估框架在30种语言中进行系统本地化：标点符号对齐、响应语言验证、多段落连贯性验证、受限输出检查

评估指标¶

Strict/Loose：Strict为严格规则匹配，Loose允许文本归一化(如markdown移除、边界调整)后匹配
Prompt级/Instruction级：Prompt级要求所有指令全部满足，Instruction级评估每条指令的单独遵循率

实验¶

表1：总体结果（20+模型，4个指标平均）¶

模型	Prompt(S)	Prompt(L)	Inst.(S)	Inst.(L)	Avg
Ministral-8B	21.74	24.49	46.45	49.72	35.60
Qwen2.5-7B	42.99	47.43	64.42	68.02	55.72
Gemma2-27B	58.86	61.35	77.21	78.78	69.05
LLaMA3.3-70B	67.42	70.32	80.43	82.25	75.11
GPT-4o	71.43	75.89	84.49	87.13	79.73
Claude3.5-sonnet	73.61	76.77	85.62	87.71	80.93

表2：按语言分析（30种语言，Instruction级Loose平均准确率）¶

语言类别	代表语言	准确率范围
高资源(欧洲/东亚)	de, fr, zh, en	70-90%
中等资源	ar, ko, tr	55-70%
低资源	yo, ne, kk	29-50%

关键发现¶

Instruction级 vs Prompt级差距：所有模型指令级准确率比prompt级高10-20%，小模型差距更大(Ministral-8B差24.7个百分点)，表明组合式指令推理仍是关键瓶颈
模型规模效应：70B+模型比8B模型绝对准确率高45-60%，但Qwen2.5-7B已能达到64.42%的strict指令级准确率，说明基本指令理解可在较小规模实现
高/低资源语言鸿沟：即使Claude3.5-sonnet在约鲁巴语(yo)也仅62.3%，而英语90.3%，差距约28个百分点
脚本特异性挑战：右到左文字(ar, he)尤其敏感，LLaMA3.3-70B在希伯来语78.5% vs 乌尔都语54.7%
MT数据低估性能：本地化数据比机器翻译数据准确率高7-22%，尤其低资源语言差距最大（约鲁巴语Claude低估7.1%）
特定语言响应能力：多语言增强模型Aya-expanse-32B在"用指定语言回复"任务达95.69%，超越大多数商业模型

亮点¶

覆盖30种语言、6大语系的高质量本地化基准，远超现有多语言IF评测
三步本地化方法（词汇替换+主题转换+语用重构）系统性解决跨语言/跨文化适配问题
实验揭示了MT评测数据的系统性低估效应，为多语言评测方法论提供重要参考
细粒度分析涵盖约束类型、脚本特性、语系迁移等多维度，发现具有实际指导意义

局限¶

30种语言仍未覆盖非拉丁文字（如埃塞俄比亚文、切罗基文）和方言变体（如阿拉伯语方言）
文化本地化停留在表面适配（日期格式等），未深入语用层面（如日语敬语策略）
自动本地化残留偏差（如GPT-4倾向正式语体），某些语言可能仍存在翻译痕迹
仅评估静态prompt，未涉及交互式指令细化场景
基于IFEval扩展，继承了IFEval本身的约束类型和指令设计限制

评分¶

新颖性: ⭐⭐⭐ — 方法框架为标准的翻译+本地化+验证流水线，核心创新在于规模和系统性
有效性: ⭐⭐⭐⭐ — 20+模型、30种语言的大规模评测，发现扎实可信
实用价值: ⭐⭐⭐⭐ — 填补多语言IF评测空白，对多语言LLM开发和评估有直接参考价值
推荐指数: ⭐⭐⭐⭐ — 实证贡献突出的benchmark论文，值得关注多语言LLM评测的研究者阅读