MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority Languages¶

会议: ACL 2025
arXiv: 2503.01150
代码: https://github.com/luciusssss/MiLiC-Eval
领域: LLM/NLP
关键词: minority languages, Chinese, multilingual evaluation, low-resource, benchmark

一句话总结¶

构建首个中国少数民族语言 LLM 评估基准 MiLiC-Eval，包含 24K 实例覆盖 9 个任务、聚焦藏语/维吴尔语/哈萨克语/蒙古语 4 种语言，发现开源 LLM 在语法密集型任务和多文字语言上表现极差。

研究背景与动机¶

领域现状：LLM 在英语/中文上表现优异，但对中国少数民族语言（藏语、维语、哈语、蒙语）几乎完全无法处理。
现有痛点：缺乏标准化的评估基准，现有低资源语言基准对特殊书写系统关注不足。
核心矛盾：这些语言有数千万使用者，但在 NLP 研究中被边缘化。
本文要解决什么？ 构建系统化的评估框架，并系统测试开源 LLM 的能力。
切入角度：4 种语言 x 9 个任务，从词汇到推理、从语言学到问题解决。
核心idea一句话：开源 LLM 对中国少数民族语言的支持极其有限，特别是使用特殊书写系统（如传统蒙古文、藏文）的语言。

方法详解¶

整体框架¶

4 种语言（藏/维/哈/蒙）x 9 个任务 = 24K 实例，任务跨语言平行设计以确保公平对比。

关键设计¶

9 个任务覆盖两维度技能
语言学技能：词汇、语法、语义、生成、翻译
问题解决技能：主题建模、信息提取、符号推理
设计动机：从简单到复杂、从语言学到实用技能
聚焦特殊书写系统
传统蒙古文（竖写）、藏文、阿拉伯文变体
设计动机：现有 tokenizer 对这些文字的处理极差
人工翻译数据
避免机器翻译噪声干扰评估
设计动机：确保评估的可靠性

实验关键数据¶

主实验 -- 开源 LLM 表现¶

语言	最佳模型的平均准确率	表现
藏语	~35%	差
维吴尔语	~30%	很差
哈萨克语	~25%	极差
蒙古语	~20%	最差

技能维度分析¶

技能	表现
词汇知识	基本可用
主题建模	简单任务可做
生成/翻译	极差（缺乏语法知识）
符号推理	较好（语言无关）

关键发现¶

蒙古语表现最差，因其传统书写系统在 tokenizer 中表示极差
语法密集型任务（生成/翻译）是最大短板
符号推理等语言无关任务表现相对更好

亮点与洞察¶

首个中国少数民族语言 LLM 基准，填补重要空白
任务平行设计确保跨语言公平对比
发现 tokenizer 是低资源语言支持的关键瓶颈

局限性 / 可改进方向¶

仅覆盖 4 种语言（中国有 50+ 少数民族语言）
改进方向：扩展语言覆盖、构建训练数据

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个中国少数民族语言基准
实验充分度: ⭐⭐⭐⭐ 24K 实例 x 4 语言 x 9 任务
写作质量: ⭐⭐⭐⭐ 设计严谨
价值: ⭐⭐⭐⭐⭐ 对多语言包容性有重要意义