跳转至

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America

会议: ACL 2025
arXiv: 2507.00999
代码: https://hf.co/spaces/la-leaderboard/la-leaderboard
领域: LLM/NLP
关键词: 多语言评估, 西班牙语, 排行榜, 低资源语言, 社区驱动

一句话总结

构建首个面向西班牙和拉丁美洲语言的开源LLM排行榜,整合66个数据集覆盖西班牙语、加泰罗尼亚语、巴斯克语、加利西亚语,评估50个模型并分析训练策略、算力与性能的关系。

研究背景与动机

  1. 领域现状:LLM排行榜(如HELM、Open LLM Leaderboard)主要聚焦英语或少数高资源语言。西班牙语虽有6亿+使用者,但在多语言排行榜中通常仅被作为翻译版本纳入。
  2. 现有痛点:(a) 机器翻译的评估集无法捕捉语言和文化的细微差异;(b) 西班牙和拉美存在丰富的语言多样性(西班牙语变体+巴斯克语、加泰罗尼亚语、加利西亚语+原住民语言),但无统一评估标准;(c) 现有西班牙语排行榜要么评估集不公开、要么仅评估固定模型集合、要么仅覆盖单一语言。
  3. 核心矛盾:不能衡量的就不能改进——缺乏全面的排行榜制约了服务西班牙语社区的LLM开发。
  4. 本文要解决什么? 构建一个社区驱动、开源、可扩展、覆盖多语言和多任务的LLM评估平台。
  5. 切入角度:社区协作(13个研究组贡献数据集)+ 高质量数据集策划(优先原生语言数据集而非翻译)+ 资源高效的评估设计(较少few-shot示例)。
  6. 核心idea一句话:社区驱动的开源多语言排行榜,首次系统评估LLM在西班牙和拉美语言上的表现。

方法详解

整体框架

La Leaderboard由66个数据集组成,覆盖4种语言(西班牙语22个、加泰罗尼亚语18个、巴斯克语17个、加利西亚语9个),涵盖常识推理、NLI、QA、文本分类、摘要、数学推理、语言接受度、伦理等任务类型。任何人可提交开源模型进行评估,结果公开可复现。

关键设计

  1. 高质量数据集策划原则:
  2. 做什么:确保评估数据集的语言和文化代表性
  3. 核心思路:优先级排序——原生语言数据集(55%) > 人工翻译数据集(38%) > 人工审校的机器翻译(7%)。所有数据集至少有一位母语者参与标注或审校。7个数据集专为La Leaderboard新创建
  4. 设计动机:机器翻译评估集无法捕捉语言细微差异和文化特性,翻译错误会给结果引入噪声

  5. 资源高效的Few-shot配置:

  6. 做什么:减少few-shot示例数量以降低计算成本和环境影响
  7. 核心思路:通过实验验证,使用比文献常见设置更少的few-shot示例(如0-shot或3-shot而非5-shot),在性能影响可忽略的情况下大幅降低算力需求
  8. 设计动机:确保计算资源有限的研究者也能复现评估结果

  9. 多维分析框架:

  10. 做什么:从多个维度分析模型表现
  11. 核心思路:按语言、任务类型、训练数据策略、计算预算、模型大小、量化方案六个维度进行交叉分析
  12. 设计动机:单一排名无法揭示模型表现的深层原因,多维分析帮助社区理解不同训练策略的效果

损失函数 / 训练策略

La Leaderboard是评估平台。MCQA任务用LogProbs评估,文本生成用BLEU/ROUGE/SAS评估。基于LM Evaluation Harness构建,有开源fork支持自定义指标。

实验关键数据

主实验

Top-10排名最频繁的模型(按进入Top-10的任务数排列):

模型 参数 Top-10任务数 西班牙语 加泰罗尼亚语 巴斯克语 加利西亚语
Gemma-2-9B-IT 9B 36 59.01 57.86 50.17 47.46
Llama-3.1-8B-IT 8B 32 59.36 57.89 47.34 47.73
Gemma-2-9B 9B 31 58.01 57.29 50.04 46.36
Qwen2.5-32B-IT (GPTQ-Int4) 32B 30 61.30 56.50 47.35 47.87
Qwen2.5-14B-IT (GPTQ-Int8) 14B 29 61.60 57.89 47.84 48.34

消融实验(训练策略分析)

训练策略 代表模型 优势 劣势
大规模多语言预训练 Qwen-2.5, Llama-3.1 各语言表现一致高 需大量算力
语言均衡预训练 Salamandra, EuroLLM 低资源语言表现好 高资源语言不如通用模型
大规模英语+迁移 Gemma-2 通过知识迁移表现优秀 语言多样性不足
持续预训练 Latxa 目标语言峰值表现 可能遗忘
仅指令微调 RigoChat 流畅性提升 推理/QA任务提升有限

关键发现

  • 大规模多语言预训练最有效:越早、越深地让模型接触目标语言,平均分越高;后期策略是有益补充但无法替代
  • 量化大模型优于全精度小模型:相同VRAM下,量化的14B/32B模型优于全精度7-9B模型
  • 加利西亚语表现最差:数据集最少(9个)且语言资源少,在QA和推理任务上显著低于其他语言
  • 摘要任务是共同弱项:四种语言在摘要任务上表现都差,NLI任务表现最好
  • 知识广度可补偿语言特定数据不足:Gemma-2在英语和代码上的大量训练,通过知识迁移使其在所有语言上都表现良好
  • 能耗与性能强相关:指令微调版本通常比基础版本消耗更少能量(因为基础模型更冗长),但性能更好
  • 总评估碳排放92.09 kg CO2:660.87小时计算时间,平均每个模型9.25 kWh

亮点与洞察

  • 社区驱动的方法论值得推广:13个研究组贡献数据集,展示了如何为低资源语言社区构建评估基础设施。论文还分享了方法论供其他语言社区参考
  • 训练策略的系统性对比:从预训练策略、算力投入到模型大小,提供了全面的视角帮助理解模型表现的决定因素
  • 可扩展设计:框架设计为可逐步扩展,未来将纳入拉美原住民语言(如瓜拉尼语、纳瓦特尔语等)

局限性 / 可改进方向

  • 原住民语言尚未纳入:拉美有数百种原住民语言(如瓜拉尼语、克丘亚语),目前仅在计划中
  • 闭源模型未评估:未包含GPT-4、Claude等闭源模型的对比
  • 文化适切性评估不足:语言能力≠文化理解,缺乏专门评估文化适切性的数据集
  • 数据集覆盖不均:加利西亚语仅9个数据集,评估的全面性受限

相关工作与启发

  • vs Open LLM Leaderboard: 后者以英语为主,西班牙语仅通过翻译纳入;La Leaderboard以原生数据集为主
  • vs ODESIA Leaderboard: ODESIA面向西班牙语但评估集不公开、仅评估10个模型;La Leaderboard完全开源、50个模型
  • vs CLUB: CLUB只覆盖加泰罗尼亚语和BERT类模型;La Leaderboard覆盖4种语言和生成式LLM

评分

  • 新颖性: ⭐⭐⭐ 方法论不算新颖,但填补了重要的空白
  • 实验充分度: ⭐⭐⭐⭐ 50个模型×66个数据集×多维分析
  • 写作质量: ⭐⭐⭐⭐ 方法论描述详尽,为其他语言社区提供了参考框架
  • 价值: ⭐⭐⭐⭐ 对西班牙语NLP社区有重要的基础设施贡献