MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority Languages¶
会议: ACL 2025
arXiv: 2503.01150
代码: https://github.com/luciusssss/MiLiC-Eval
领域: LLM/NLP
关键词: minority languages, Chinese, multilingual evaluation, low-resource, benchmark
一句话总结¶
构建首个中国少数民族语言 LLM 评估基准 MiLiC-Eval,包含 24K 实例覆盖 9 个任务、聚焦藏语/维吴尔语/哈萨克语/蒙古语 4 种语言,发现开源 LLM 在语法密集型任务和多文字语言上表现极差。
研究背景与动机¶
- 领域现状:LLM 在英语/中文上表现优异,但对中国少数民族语言(藏语、维语、哈语、蒙语)几乎完全无法处理。
- 现有痛点:缺乏标准化的评估基准,现有低资源语言基准对特殊书写系统关注不足。
- 核心矛盾:这些语言有数千万使用者,但在 NLP 研究中被边缘化。
- 本文要解决什么? 构建系统化的评估框架,并系统测试开源 LLM 的能力。
- 切入角度:4 种语言 x 9 个任务,从词汇到推理、从语言学到问题解决。
- 核心idea一句话:开源 LLM 对中国少数民族语言的支持极其有限,特别是使用特殊书写系统(如传统蒙古文、藏文)的语言。
方法详解¶
整体框架¶
4 种语言(藏/维/哈/蒙)x 9 个任务 = 24K 实例,任务跨语言平行设计以确保公平对比。
关键设计¶
- 9 个任务覆盖两维度技能
- 语言学技能:词汇、语法、语义、生成、翻译
- 问题解决技能:主题建模、信息提取、符号推理
-
设计动机:从简单到复杂、从语言学到实用技能
-
聚焦特殊书写系统
- 传统蒙古文(竖写)、藏文、阿拉伯文变体
-
设计动机:现有 tokenizer 对这些文字的处理极差
-
人工翻译数据
- 避免机器翻译噪声干扰评估
- 设计动机:确保评估的可靠性
实验关键数据¶
主实验 -- 开源 LLM 表现¶
| 语言 | 最佳模型的平均准确率 | 表现 |
|---|---|---|
| 藏语 | ~35% | 差 |
| 维吴尔语 | ~30% | 很差 |
| 哈萨克语 | ~25% | 极差 |
| 蒙古语 | ~20% | 最差 |
技能维度分析¶
| 技能 | 表现 |
|---|---|
| 词汇知识 | 基本可用 |
| 主题建模 | 简单任务可做 |
| 生成/翻译 | 极差(缺乏语法知识) |
| 符号推理 | 较好(语言无关) |
关键发现¶
- 蒙古语表现最差,因其传统书写系统在 tokenizer 中表示极差
- 语法密集型任务(生成/翻译)是最大短板
- 符号推理等语言无关任务表现相对更好
亮点与洞察¶
- 首个中国少数民族语言 LLM 基准,填补重要空白
- 任务平行设计确保跨语言公平对比
- 发现 tokenizer 是低资源语言支持的关键瓶颈
局限性 / 可改进方向¶
- 仅覆盖 4 种语言(中国有 50+ 少数民族语言)
- 改进方向:扩展语言覆盖、构建训练数据
相关工作与启发¶
- vs XTREME/MEGA:它们不覆盖中国少数民族语言
- vs EXECUTE:EXECUTE 测 token 理解,MiLiC-Eval 测语言能力
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个中国少数民族语言基准
- 实验充分度: ⭐⭐⭐⭐ 24K 实例 x 4 语言 x 9 任务
- 写作质量: ⭐⭐⭐⭐ 设计严谨
- 价值: ⭐⭐⭐⭐⭐ 对多语言包容性有重要意义