AfroBench: How Good Are Large Language Models on African Languages?¶
会议: ACL 2025
arXiv: 2311.07978
代码: 项目页
领域: 多语言NLP / 低资源语言
关键词: 非洲语言, LLM评估, 多任务基准, 多语言, 低资源, 零样本
一句话总结¶
构建 AfroBench——首个大规模非洲语言 LLM 多任务评测基准,覆盖 64 种非洲语言、15 个任务、22 个数据集(9 NLU + 6 生成 + 6 知识QA + 1 数学推理),系统对比提示式 LLM 与微调 BERT/T5 基线,发现非洲语言与英语之间存在巨大性能差距,且性能与单语资源可用性密切相关。
背景与动机¶
LLM 在高资源语言上表现出色,但在低资源语言(尤其非洲语言)上的性能严重不足。现有多语言评估(MEGA、Megaverse)仅覆盖少数非洲语言。全球 7000+ 语言中 90%+ 被 NLP 社区忽视。非洲有 2000+ 种语言,多数缺乏高质量评估数据和预训练资源。
核心问题¶
LLM 在非洲语言的多种 NLP 任务上表现如何?哪些因素(语言资源、模型规模、任务类型)影响性能?提示式 LLM 与微调小模型谁更优?
方法详解¶
AfroBench 基准¶
- 64 种非洲语言(覆盖 Niger-Congo、Afro-Asiatic、Nilo-Saharan、Khoisan 等语系)
- 4 类 15 个任务:
- NLU(9 个):NER、POS、情感分析、新闻分类、仇恨言论检测等
- 文本生成(6 个):机器翻译(→英/→非洲)、摘要
- 知识/QA(6 个):开放QA、闭卷QA、常识推理
- 数学推理(1 个):多语言数学问题
评估模型¶
- 闭源 LLM:GPT-3.5-Turbo、GPT-4、Gemini Pro
- 开源 LLM:Llama-2-70B、Aya、BLOOMZ、mT0
- 微调基线:AfroXLMR(BERT 类)、mT5、AfriTeVa
评估设置¶
零样本/少样本提示 vs 微调,主要用英语提示
实验关键数据¶
关键发现¶
| 维度 | 结论 |
|---|---|
| 英语 vs 非洲语言 | 巨大差距——大多数任务性能下降 20-40% |
| GPT-4 vs 其他 | GPT-4 在多数任务上领先,但在低资源语言上仍显著退化 |
| 提示式 LLM vs 微调 | NLU 任务微调 BERT/T5 常优于零样本 LLM;生成任务 LLM 更好 |
| 资源可用性 | 有更多单语数据的语言(如 Swahili、Yoruba)性能明显更好 |
| 任务类型 | 分类任务差距较小,生成任务差距巨大(翻译/摘要) |
| 语系差异 | Niger-Congo B(班图语支)总体最好,Khoisan 最差 |
代表性数据¶
- GPT-4 在 Swahili NER 上接近英语水平,但在 Lingala/Twi 上下降 30%+
- 零样本翻译:英→非洲语言的 BLEU 分数极低(<10 for 多数语言)
- 数学推理:即使有翻译的数学问题,非洲语言下降 25%+
亮点¶
- 规模最大的非洲语言 LLM 评估:64 语言 × 15 任务,远超 MEGA/Megaverse
- 系统性发现:资源-性能相关性、任务类型效应、微调 vs 提示的权衡——都有数据支撑
- 对现实的清醒评估:不过度宣传 LLM 的多语言能力,诚实报告差距
- 来自 Masakhane 社区:非洲 NLP 社区自主构建,确保文化和语言代表性
局限性 / 可改进方向¶
- 评估截止到 GPT-4:更新模型(如 GPT-4o、Claude-3.5)可能缩小差距
- 主要用英语提示:用目标语言提示可能有不同结果
- 某些语言仅有 1-2 个任务:覆盖不均匀
- 未包含语音任务:非洲语言很多是口头传统,语音 NLP 更重要
与相关工作的对比¶
- vs MEGA(11 非洲语言):AfroBench 覆盖 64 语言,6 倍以上
- vs Megaverse(16 语言):AfroBench 任务更多样(含生成/推理)
- vs SIB-200(57 语言但单任务):AfroBench 多任务评估更全面
启发与关联¶
- "有更多单语数据=更好性能"表明数据投资是最有效的提升路径
- 微调小模型 > 零样本大模型(在 NLU 上)——资源有限时应优先微调
- 非洲语言 NLP 的瓶颈不在模型而在数据——社区驱动的数据收集至关重要
评分¶
- 新颖性: ⭐⭐⭐⭐ 64 语言 × 15 任务的规模前所未有
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型×多任务×微调对比,极其全面
- 写作质量: ⭐⭐⭐⭐ 结果分析系统,语系/资源/任务维度清晰
- 价值: ⭐⭐⭐⭐⭐ 对多语言NLP社区和非洲语言数字化有重要意义