跳转至

MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority Languages

会议: ACL 2025
arXiv: 2503.01150
代码: https://github.com/luciusssss/MiLiC-Eval
领域: LLM/NLP
关键词: minority languages, Chinese, multilingual evaluation, low-resource, benchmark

一句话总结

构建首个中国少数民族语言 LLM 评估基准 MiLiC-Eval,包含 24K 实例覆盖 9 个任务、聚焦藏语/维吴尔语/哈萨克语/蒙古语 4 种语言,发现开源 LLM 在语法密集型任务和多文字语言上表现极差。

研究背景与动机

  1. 领域现状:LLM 在英语/中文上表现优异,但对中国少数民族语言(藏语、维语、哈语、蒙语)几乎完全无法处理。
  2. 现有痛点:缺乏标准化的评估基准,现有低资源语言基准对特殊书写系统关注不足。
  3. 核心矛盾:这些语言有数千万使用者,但在 NLP 研究中被边缘化。
  4. 本文要解决什么? 构建系统化的评估框架,并系统测试开源 LLM 的能力。
  5. 切入角度:4 种语言 x 9 个任务,从词汇到推理、从语言学到问题解决。
  6. 核心idea一句话:开源 LLM 对中国少数民族语言的支持极其有限,特别是使用特殊书写系统(如传统蒙古文、藏文)的语言。

方法详解

整体框架

4 种语言(藏/维/哈/蒙)x 9 个任务 = 24K 实例,任务跨语言平行设计以确保公平对比。

关键设计

  1. 9 个任务覆盖两维度技能
  2. 语言学技能:词汇、语法、语义、生成、翻译
  3. 问题解决技能:主题建模、信息提取、符号推理
  4. 设计动机:从简单到复杂、从语言学到实用技能

  5. 聚焦特殊书写系统

  6. 传统蒙古文(竖写)、藏文、阿拉伯文变体
  7. 设计动机:现有 tokenizer 对这些文字的处理极差

  8. 人工翻译数据

  9. 避免机器翻译噪声干扰评估
  10. 设计动机:确保评估的可靠性

实验关键数据

主实验 -- 开源 LLM 表现

语言 最佳模型的平均准确率 表现
藏语 ~35%
维吴尔语 ~30% 很差
哈萨克语 ~25% 极差
蒙古语 ~20% 最差

技能维度分析

技能 表现
词汇知识 基本可用
主题建模 简单任务可做
生成/翻译 极差(缺乏语法知识)
符号推理 较好(语言无关)

关键发现

  • 蒙古语表现最差,因其传统书写系统在 tokenizer 中表示极差
  • 语法密集型任务(生成/翻译)是最大短板
  • 符号推理等语言无关任务表现相对更好

亮点与洞察

  • 首个中国少数民族语言 LLM 基准,填补重要空白
  • 任务平行设计确保跨语言公平对比
  • 发现 tokenizer 是低资源语言支持的关键瓶颈

局限性 / 可改进方向

  • 仅覆盖 4 种语言(中国有 50+ 少数民族语言)
  • 改进方向:扩展语言覆盖、构建训练数据

相关工作与启发

  • vs XTREME/MEGA:它们不覆盖中国少数民族语言
  • vs EXECUTE:EXECUTE 测 token 理解,MiLiC-Eval 测语言能力

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个中国少数民族语言基准
  • 实验充分度: ⭐⭐⭐⭐ 24K 实例 x 4 语言 x 9 任务
  • 写作质量: ⭐⭐⭐⭐ 设计严谨
  • 价值: ⭐⭐⭐⭐⭐ 对多语言包容性有重要意义