Where Are We? Evaluating LLM Performance on African Languages¶

会议: ACL 2025
arXiv: 2502.19582
代码: GitHub
领域: LLM NLP
关键词: 非洲语言, 多语言评估, 语言政策, 低资源NLP, 基准测试

一句话总结¶

构建了覆盖517种非洲语言、30个数据集、16类任务的 Sahara 基准，系统评估24个LLM在非洲语言上的表现，揭示语言政策驱动的数据不平等如何直接影响模型效果。

现有痛点：领域现状：非洲拥有约2000种语言，是全球语言最多元的大陆，但在NLP研究中严重代表不足：

历史语言政策的影响：大多数非洲国家以殖民时期引入的外语（英语、法语、葡萄牙语）为官方语言。例如，尼日利亚512种本土语言中仅3种获得区域认可。即使获得官方认可的本土语言，其角色往往是象征性的而非功能性的。
数据极度不均衡：在517种非洲语言中，仅45种拥有超过1个数据集，绝大多数语言仅有语言识别数据。Amharic以11个数据集领先，而大部分语言几乎没有可用资源。
现有评估不全面：之前的工作如 IROKOBench 仅覆盖有限的非洲语言，缺乏全面的跨语言、跨任务评估基准来追踪整体进展。
数据可用性≠说话人数：拥有1.53亿使用者的尼日利亚皮钦语（Naija）被归为"被遗忘语言"，而仅500万使用者的加泰罗尼亚语却是高资源语言，说明语言声望、政策和数字化程度才是关键因素。

Sahara 基准采用模块化设计，从现有公开数据集中收集整合，覆盖分类、生成、多选/推理（MCCR）、token级四大任务簇，支持517种语言、30个数据集。同时提供了 HuggingFace 上的动态排行榜用于持续追踪模型表现。

广泛且多样的覆盖：覆盖54个非洲国家中的50个，包含5种文字系统（阿拉伯文、科普特文、埃塞俄比亚文、拉丁文、Vai文），5个语系。每个任务从数据集中随机采样1000个样本用于few-shot测试。
任务簇组织：
- 分类簇：跨语言NLI、语言识别（517种语言）、新闻分类、情感分析、主题分类
- 生成簇：机器翻译（29种语言）、释义、摘要、标题生成
- MCCR簇：通用知识（MMLU）、数学文字问题（MGSM）、阅读理解、问答
- Token级簇：NER（27种语言）、短语分块、词性标注
政策-数据-性能链分析：不仅评估模型表现，还系统分析语言政策（教育政策、国家政策、区域政策）如何通过影响数据可用性，最终决定模型在特定语言上的效果，形成"政策→数据→性能"的因果链。

本文是评估工作，不涉及模型训练。评估设置： - 统一使用 few-shot 设置（不同任务3-10 shots） - 评估指标包括 Exact Match、F1、Accuracy、spBLEU1K、RougeL - 评估24个模型：含 SLM（<8B）和 LLM（≥8B）两类

24个模型在四大任务簇的平均表现（总体平均分）：

模型	分类Avg	生成Avg	MCCR Avg	Token Avg	总体Avg
Claude-4-Sonnet (闭源)	47.28	10.59	60.53	44.86	40.82
GPT-4.1 (闭源)	48.07	11.06	50.98	34.05	36.04
Command-A (111B)	38.64	10.36	45.55	25.16	29.93
Gemma3 (27B)	44.44	8.19	43.20	16.45	28.07
Llama3.1 (70B)	35.96	11.15	43.67	15.51	26.57
Phi-4 (3.8B)	16.50	5.10	33.73	11.78	16.78

闭源模型显著领先：Claude-4-Sonnet以40.82的总体平均分大幅领先所有开源模型，GPT-4.1紧随其后。
理解易于生成：模型在分类任务上表现相对较好（部分语言>80%准确率），但在生成任务上表现糟糕（大部分BLEU/ROUGE<15），说明模型理解非洲语言的能力远高于生成。
少数语言受益：模型在Hausa、Swahili、Yorùbá、Afrikaans等少数资源丰富的语言上表现最好，这些语言都具有官方地位和充足的训练数据。
数据可用性驱动性能：性能差异与语言的数据量强相关，而非语言的内在复杂性。Swahili因其标准化拼写、规则形态和丰富的双语语料库而表现突出。
小模型在特定任务可竞争：Phi-4（3.8B）在MCCR任务中的SLM中表现最佳，某些场景下不必使用超大模型。

数据集多为翻译：许多数据集（如AfriXLNI、AfriMMLU）是从英语翻译而来，不完全反映非洲语言的真实使用场景，可能引入标签不对齐和借词偏差。
大多数语言仅有语言识别数据：517种语言中的绝大多数只支持语言识别任务，无法评估更复杂的能力。
评估方法限制：采样1000个样本进行few-shot评估，may not capture the full variability of each language.
缺乏生成质量的人类评估：仅使用自动指标，未进行人类评估来验证生成文本的真实质量。
方言变体未充分覆盖：同一语言的方言差异可能很大，但基准中未区分方言。