skLEP: A Slovak General Language Understanding Benchmark¶

会议: ACL 2025 (Findings)
arXiv: 2506.21508
代码: github.com/slovak-nlp/sklep
领域: NLP理解 / 基准评测
关键词: 斯洛伐克语、NLU基准、语言理解评测、多语言模型、低资源语言

一句话总结¶

本文提出 skLEP，首个面向斯洛伐克语的综合性自然语言理解基准，包含 9 个多层级任务（词级、句对级、文档级），并对斯洛伐克语专有模型、多语言模型和英语模型进行了系统评测，发现 mDeBERTaV3 在平均性能上超越了所有斯洛伐克专有模型。

研究背景与动机¶

领域现状：GLUE 和 SuperGLUE 等基准推动了英语 NLU 模型的快速发展，随后各语言也纷纷建立了自己的基准，如波兰语 KLEJ、俄语 Russian SuperGLUE、斯洛文尼亚语 Slovene SuperGLUE 等。然而，斯洛伐克语作为一种中等资源语言（约 1000 万母语者），一直缺乏标准化的 NLU 评测基准。

现有痛点：近年来已有多个斯洛伐克语专用模型发布（SlovakBERT、FERNET-CC、HPLT BERT 等），但由于缺乏统一的评测标准，这些模型之间以及与多语言模型的比较无法系统进行。已有的零散评测覆盖任务有限（如 SlovakBERT 论文仅评测了 POS 标注、语义相似度等少量任务），且部分数据集翻译质量不高。

核心矛盾：斯洛伐克语专用模型不断涌现，但缺乏"赛道"来公平比较它们。同时，部分任务（如文本蕴含、自然语言推理）在斯洛伐克语中完全没有对应数据集，需要从零构建或从英语翻译。

本文目标：（1）构建覆盖 9 个任务的综合 NLU 基准 skLEP；（2）对 14 个模型进行公平的系统评测；（3）开源评测工具包和公开排行榜。

切入角度：通过整合现有斯洛伐克语数据集和翻译英语数据集来补充缺失任务。翻译质量通过专门的评估实验（5 种翻译系统对比 + 母语者后编辑）来保障。

核心 idea：填补斯洛伐克语 NLU 评测空白，建立了类似 GLUE 的标准化基准，并通过引入相对错误降低率（RER）这一聚合指标来更公平地比较不同任务上的模型差异。

方法详解¶

整体框架¶

skLEP 由 9 个任务组成，分三个层级：词级任务（POS 标注、两个 NER 数据集）、句对任务（文本蕴含、自然语言推理、语义相似度）、文档级任务（仇恨言论检测、情感分析、问答）。对于缺乏斯洛伐克语版本的任务，使用 DeepL 翻译（辅以母语者后编辑），大规模 NLI 数据集使用 MADLAD-400-3B 翻译以控制成本。对 14 个预训练模型在所有任务上进行微调评测。

关键设计¶

多层级任务覆盖与数据集构建:
- 功能：提供全面且多样化的 NLU 评测
- 核心思路：9 个任务均匀分布在三个粒度层。词级包括 UD（POS 标注，基于 Slovak Dependency Treebank）、UNER（命名实体识别，使用 Universal NER 的斯洛伐克子集，标注 PER/ORG/LOC）、WikiGoldSK（另一个 NER 数据集，来自斯洛伐克维基百科，额外包含 MISC 类）。句对级包括 RTE（文本蕴含，从英语翻译并重标注）、NLI（基于 XNLI 的三分类）、STS（语义相似度，0-5 分连续评分）。文档级包括 HS（仇恨言论，二分类）、SA（情感分析，正面/负面二分类）、QA（问答，基于 SK-QuAD）
- 设计动机：仅靠单一任务无法全面评估模型能力。三级任务覆盖了从细粒度词理解到段落级语义推理的完整能力谱，且每级包含 3 个任务以增加评估的统计可靠性
翻译质量保障管线:
- 功能：确保翻译数据集的可靠性
- 核心思路：对 DeepL、GPT-4o、Google Translate、MADLAD-400-3B、NLLB-3.3B 五种翻译系统进行系统对比，由 4 名母语标注者从排序和流畅度/充分度两个维度评估。结果显示 DeepL 整体最优（流畅度 3.70/4、充分度 3.73/4），因此被选为主翻译工具。大规模 NLI 语料出于成本考虑使用 MADLAD-400-3B。所有翻译结果均经母语者后编辑，验证实验显示后编辑在 28/30 样本中提升了翻译质量
- 设计动机：翻译基准的最大风险是翻译质量不佳导致评测结论不可靠，多翻译系统对比和后编辑双重保障最大限度降低了这一风险
相对错误降低率（RER）聚合指标:
- 功能：更公平地跨任务比较模型性能
- 核心思路：不同任务的绝对分数范围差异很大（如 UD 的 F1 通常 >95，而 QA 的 F1 约 75），简单平均绝对分数会给高分任务过大权重。RER 以 SlovakBERT 为基线，计算每个模型相对于基线的错误降低百分比，然后取平均。这样 UD 上 1 分提升（~20% 错误降低）比 QA 上 1 分提升（~3% 错误降低）有更大权重，更准确地反映了提升难度
- 设计动机：受 de Vries et al., 2023 启发，RER 使得异构任务的聚合比较更加合理，避免了简单平均的偏差

损失函数 / 训练策略¶

所有模型在每个任务上进行 fine-tuning，使用 AdamW 优化器、线性学习率衰减、batch size 12。通过广泛的超参数网格搜索（学习率、epoch 数、warmup 比例），在 A100 GPU 上训练。总计约 4024 次实验运行，消耗约 130 GPU-天。

实验关键数据¶

主实验¶

模型	类型	平均分数	平均RER	UD(F1)	RTE(Acc)	NLI(Acc)	QA(F1)
mDeBERTaV3-Base	多语言	85.17	+6.43	98.02	70.94	84.41	75.89
SlovakBERT	斯洛伐克	83.95	0.00	98.04	65.20	82.75	74.36
HPLT BERT-sk	斯洛伐克	82.96	-1.29	98.23	56.81	80.71	75.14
FERNET-CC	斯洛伐克	84.27	+0.55	97.87	68.23	81.83	73.85
XLM-R-Large	多语言	83.36	-11.90	98.23	57.35	85.80	77.14
DeBERTaV3-Large	英语	83.95	-10.22	97.55	74.30	85.13	74.73
ModernBERT-Base	英语	72.82	-132.43	91.52	57.77	71.42	—

翻译质量评估¶

翻译系统	平均排名↓	流畅度/4	充分度/4
DeepL	1.81	3.70	3.73
GPT-4o	1.85	3.62	3.73
Google Translate	2.05	3.57	3.67
MADLAD-400-3B	2.54	3.48	3.53
NLLB-3.3B	2.68	3.40	3.54

关键发现¶

mDeBERTaV3 是最强模型：在 276M 参数量下，平均分数 85.17 和 RER +6.43 均为最优，说明多语言 DeBERTa 的架构优势（去耦注意力 + 替换令牌检测）对中等资源语言效果显著
斯洛伐克专有模型仍有竞争力：SlovakBERT 尽管是最早的专有模型，仍在多个任务上保持强势，特别是 UD、HS、SA 等任务。但在 RTE 和 NLI 等推理密集任务上明显落后于 mDeBERTaV3
ModernBERT 表现意外糟糕：虽然是最新的大规模英语模型，但在斯洛伐克语上的 RER 为 -132.43，远低于基线。这说明纯英语训练的模型即使架构先进，在非英语语言上也可能严重不足
UD 和 SA 接近"解决"：大多数模型在这两个任务上 F1/Accuracy >90，提升空间有限。而 RTE 和 QA 仍有大幅提升空间（<75），是未来研究的重点方向
翻译质量可控：后编辑验证实验显示翻译引入的标签错误在个位数百分比（RTE ~2%，NLI ~5%），不影响基准的有效性

亮点与洞察¶

完整的基准生态：不仅提供数据集，还有开源评测工具包、HuggingFace 集成、公开排行榜，降低了后续研究者的使用门槛。这种"基准即服务"的理念值得其他语言社区借鉴
RER 指标的引入：用相对错误降低率替代简单平均分数进行跨任务比较，揭示了被绝对分数掩盖的差异（如 DeBERTaV3-Base 与 SlovakBERT 绝对分相同但 RER 为负），更真实地反映模型的综合能力
翻译质量的系统验证：不是单纯宣称"我们翻译了数据"，而是通过 5 种翻译系统对比、母语者后编辑、重标注一致性检验等多层验证来确保质量，方法论上非常严谨

局限与展望¶

仅评估了 Transformer encoder-only 模型，未覆盖生成式 LLM（GPT-4、Llama 等），后者在 NLU 任务上的表现值得探索
9 个任务中有 3 个是翻译得来的，虽然经过后编辑，仍可能存在"翻译腔"等伪影
斯洛伐克专有模型全部是 base 规模（<150M 参数），与大规模多语言模型（500M+）的比较不完全公平
缺少人类基线作为参照上界
某些任务相似度较高（如 NLI 和 RTE 都涉及推理关系），多样性可以进一步扩展
未来可加入更多任务类型（如共指消解、关系抽取等）和非文本/多模态数据

评分¶

新颖性: ⭐⭐⭐ 核心是基准构建，技术创新有限，但填补了重要空白
实验充分度: ⭐⭐⭐⭐⭐ 14 个模型 × 9 个任务，超参搜索 4024 次运行，翻译质量多重验证，极其充分
写作质量: ⭐⭐⭐⭐⭐ 论文组织清晰，数据呈现规范，附录极为详尽
价值: ⭐⭐⭐⭐ 对斯洛伐克语 NLP 社区价值极高，开源生态完整