La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America¶

会议: ACL 2025
arXiv: 2507.00999
代码: https://hf.co/spaces/la-leaderboard/la-leaderboard
领域: LLM/NLP
关键词: 多语言评估, 西班牙语, 排行榜, 低资源语言, 社区驱动

一句话总结¶

构建首个面向西班牙和拉丁美洲语言的开源LLM排行榜，整合66个数据集覆盖西班牙语、加泰罗尼亚语、巴斯克语、加利西亚语，评估50个模型并分析训练策略、算力与性能的关系。

领域现状：LLM排行榜（如HELM、Open LLM Leaderboard）主要聚焦英语或少数高资源语言。西班牙语虽有6亿+使用者，但在多语言排行榜中通常仅被作为翻译版本纳入。
现有痛点：(a) 机器翻译的评估集无法捕捉语言和文化的细微差异；(b) 西班牙和拉美存在丰富的语言多样性（西班牙语变体+巴斯克语、加泰罗尼亚语、加利西亚语+原住民语言），但无统一评估标准；(c) 现有西班牙语排行榜要么评估集不公开、要么仅评估固定模型集合、要么仅覆盖单一语言。
核心矛盾：不能衡量的就不能改进——缺乏全面的排行榜制约了服务西班牙语社区的LLM开发。
本文要解决什么？ 构建一个社区驱动、开源、可扩展、覆盖多语言和多任务的LLM评估平台。
切入角度：社区协作（13个研究组贡献数据集）+ 高质量数据集策划（优先原生语言数据集而非翻译）+ 资源高效的评估设计（较少few-shot示例）。
核心idea一句话：社区驱动的开源多语言排行榜，首次系统评估LLM在西班牙和拉美语言上的表现。

La Leaderboard由66个数据集组成，覆盖4种语言（西班牙语22个、加泰罗尼亚语18个、巴斯克语17个、加利西亚语9个），涵盖常识推理、NLI、QA、文本分类、摘要、数学推理、语言接受度、伦理等任务类型。任何人可提交开源模型进行评估，结果公开可复现。

高质量数据集策划原则:
做什么：确保评估数据集的语言和文化代表性
核心思路：优先级排序——原生语言数据集(55%) > 人工翻译数据集(38%) > 人工审校的机器翻译(7%)。所有数据集至少有一位母语者参与标注或审校。7个数据集专为La Leaderboard新创建
设计动机：机器翻译评估集无法捕捉语言细微差异和文化特性，翻译错误会给结果引入噪声
资源高效的Few-shot配置:
做什么：减少few-shot示例数量以降低计算成本和环境影响
核心思路：通过实验验证，使用比文献常见设置更少的few-shot示例（如0-shot或3-shot而非5-shot），在性能影响可忽略的情况下大幅降低算力需求
设计动机：确保计算资源有限的研究者也能复现评估结果
多维分析框架:
做什么：从多个维度分析模型表现
核心思路：按语言、任务类型、训练数据策略、计算预算、模型大小、量化方案六个维度进行交叉分析
设计动机：单一排名无法揭示模型表现的深层原因，多维分析帮助社区理解不同训练策略的效果

La Leaderboard是评估平台。MCQA任务用LogProbs评估，文本生成用BLEU/ROUGE/SAS评估。基于LM Evaluation Harness构建，有开源fork支持自定义指标。

Top-10排名最频繁的模型（按进入Top-10的任务数排列）：

模型	参数	Top-10任务数	西班牙语	加泰罗尼亚语	巴斯克语	加利西亚语
Gemma-2-9B-IT	9B	36	59.01	57.86	50.17	47.46
Llama-3.1-8B-IT	8B	32	59.36	57.89	47.34	47.73
Gemma-2-9B	9B	31	58.01	57.29	50.04	46.36
Qwen2.5-32B-IT (GPTQ-Int4)	32B	30	61.30	56.50	47.35	47.87
Qwen2.5-14B-IT (GPTQ-Int8)	14B	29	61.60	57.89	47.84	48.34