KoGEM: Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean¶
会议: ACL 2025
arXiv: 2506.01237
代码: https://github.com/SungHo3268/KoGEM
领域: LLM评估 / 语言学
关键词: linguistic competence, Korean grammar, benchmark, phonology, experiential knowledge, LLM evaluation
一句话总结¶
提出 KoGEM(韩语语法评估基准),包含 1,524 道基于理论语言学分类的多选题,覆盖音韵/形态/句法/语义/规范 5 大类 16 子类,零样本评估 27 个 LLM 并与人类对比,揭示 LLM 在需要经验知识的语言子类(如发音规则、音韵变化)上远逊人类,而显式补充经验知识(发音文本、语素分解)后可大幅提升。
研究背景与动机¶
- LLM 语言能力评估偏向英语:现有语言能力基准主要聚焦英语的形态学和句法,对非英语语言的独特语言现象关注不足。
- 韩语作为粘着语有独特挑战:韩语具有丰富的形态变化(助词黏着)、独特的书写系统(한글)引发特殊音韵规则(辅音同化、元音和谐),需要独立的评估框架。
- 缺乏细粒度语法基准:已有韩语评估(如词汇知识测试、拼写错误检测)覆盖面窄,缺乏基于理论语言学的系统分类和细粒度子类分析。
- 总体分数掩盖真实能力差异:仅看五大类总分,o1-preview 全面超越人类,但这掩盖了在特定子类上的显著劣势——需要更细粒度的分析。
- "语言能力"vs"统计模式匹配"的根本问题:LLM 的优秀表现可能来自大规模训练数据而非真正的语言理解(Chomsky 意义上的 linguistic competence)。
- 经验知识维度被忽视:人类通过日常发音体验自然习得的语言知识(subvocalization、语素分解直觉)是 LLM 难以获取的,但此前未被系统研究。
方法详解¶
框架概览¶
从四类韩国官方考试(高考 CSAT、全国统一成绩测试 NUAT、高中资格考试 HSQE、公务员考试 CSE)中提取韩语语法题目,按理论语言学分类为 5 大类 16 子类,构建多选题 QA 基准。对 27 个不同规模和类型的 LLM 进行零样本评估,并通过公开统计数据和众包获取人类表现。
关键设计¶
- 基于理论语言学的分类法
- 做什么:将 1,524 道题分为音韵学(音韵系统/音韵变化)、形态学(词性/语素/构词)、句法学(句子结构/句法特征)、语义学(词汇/词汇语义/语用)、规范(正字法/标准语/标准发音/外来词拼写/罗马化/跨类)共 16 个子类。
- 核心思路:利用规范语法(prescriptive grammar)作为语言能力的可度量代理,每个子类对应语言学的核心子领域。
-
设计动机:细粒度分类能够揭示 LLM 在不同语言维度上的异质化表现——总分高不代表每个维度都强。
-
多源权威数据构建
- 做什么:从面向韩语母语者的四类官方考试中 OCR 提取、人工校对、HTML 格式化,排除依赖图像的题目。
- 核心思路:三名韩语专业标注者独立分类后多数投票决定最终类别,剔除跨三类以上的题目以保证子类评估的纯度。
-
设计动机:官方考试题确保了难度和质量的权威性,面向母语者的考试反映真实的语言能力期望。
-
经验知识增强实验
- 做什么:在音韵变化子类中附加 g2pK 生成的发音文本(模拟人类 subvocalization),在语素子类中附加 Kiwi 工具的语素分解文本。
- 核心思路:将人类"隐性"使用的经验知识显式化为文本输入,测试 LLM 是否能利用这些额外信息提升表现。
- 设计动机:验证"LLM 在弱项维度的差距来源是知识缺失还是推理能力不足"这一核心假设。
实验¶
表1:主类别零样本准确率(部分模型)¶
| 模型 | 类型 | 音韵 | 形态 | 句法 | 语义 | 规范 | 平均 |
|---|---|---|---|---|---|---|---|
| o1-preview | 英/闭源 | 71.83 | 79.48 | 80.14 | 89.35 | 79.09 | 81.04 |
| Claude-3.5-Sonnet | 英/闭源 | 47.42 | 52.61 | 64.38 | 74.55 | 46.82 | 59.97 |
| GPT-4o | 英/闭源 | 44.60 | 51.49 | 55.48 | 71.95 | 58.64 | 57.87 |
| EXAONE-3.5-32B | 韩/开源 | 27.23 | 37.31 | 36.30 | 50.65 | 37.27 | 38.98 |
| HyperCLOVA-HCX-003 | 韩/闭源 | 32.39 | 41.79 | 41.10 | 55.32 | 48.18 | 44.62 |
| LLM 平均 | - | 31.33 | 37.08 | 39.00 | 51.36 | 35.71 | 40.24 |
| 人类 | - | 66.70 | 56.95 | 64.75 | 70.84 | 54.34 | 63.04 |
表2:LLM 生成解释的质量评估¶
| 模型 | 忠实性 | 连贯性 | 流畅度 | 相关性 |
|---|---|---|---|---|
| HyperCLOVA-HCX-003 | 0.80 | 0.86 | 0.98 | 0.92 |
| Claude-3.5-Sonnet | 0.92 | 0.96 | 1.00 | 1.00 |
| GPT-4o | 0.86 | 0.94 | 1.00 | 1.00 |
表3:经验知识增强效果¶
| 子类 | 增强方式 | 提升幅度 |
|---|---|---|
| 音韵变化 | +发音文本 (g2pK) | +3.1% ~ +26.3% |
| 语素 | +语素分解 (Kiwi) | +7.1% ~ +20.0% |
关键发现¶
- o1-preview 是唯一全面超越人类的 LLM(平均高 18%),但在音韵子类上仅高 5.13%,远低于其他维度的优势——音韵是 LLM 的"隐藏弱点"。
- 音韵变化子类差距最大:人类平均超过 LLM 均值 35%+,这是所有 16 个子类中最大的性能差距。
- 经验知识是关键瓶颈:补充发音文本后 LLM 在音韵变化上提升可达 26.3%,补充语素分解后提升可达 20.0%——证明差距主要来自知识缺失而非推理能力不足。
- s1-32B 思考时间分析:模型在音韵变化、语素、语用三个子类上思考时间显著更长,恰好是与人类差距最大的子类——预示了这些子类对 LLM 而言本质上更难。
- 韩语中心 vs 英语中心:英语中心的 s1-32B、DeepSeek-R1 系列凭借多语言训练反超所有韩语中心模型,说明多语言训练和测试时扩展有效。
- test-time scaling 有效:o1-preview、s1-32B、DeepSeek-R1 系列的表现证明推理时增加计算预算能显著提升语言能力。
亮点¶
- 16 子类细粒度分析揭示了"看似全能"的 LLM 的隐藏弱点——仅靠总体分数无法发现,必须深入子类。
- "经验知识"概念的提出和验证:发音规则、语素分解等人类通过感官和使用自然习得的知识是 LLM 的能力盲区,但可通过显式文本化来弥补。
- 思考时间作为难度指标:利用 s1-32B 的思考时间间接验证了哪些子类对 LLM 本质上更困难,与性能差距高度一致。
- 官方考试题目作为数据源确保了难度标定和质量控制的权威性。
局限性¶
- 仅覆盖韩语,到其他粘着语(日语、土耳其语、芬兰语)的迁移需要额外的语言学适配。
- 1,524 题规模可进一步扩大,部分子类(如罗马化 42 题)样本量较少。
- 基于规范语法,未覆盖描述语法(实际使用中的语言变体)。
- 无法完全排除训练数据污染的影响,尽管 27 个模型的一致趋势降低了这一风险。
- 经验知识增强实验仅在两个子类上开展,语用等其他弱项子类的增强方案待探索。
相关工作¶
- 语言能力探测:Conneau et al. (2018)、Hewitt & Manning (2019) 等通过探针方法评估模型隐层表示中的语言信息,但局限于英语形态/句法,且不直接评估系统化语法能力。
- 韩语知识评估:Son et al. (2024) 聚焦词汇知识,Kim et al. (2024a) 做了一般性韩语语法评估但分类不明确,Koo et al. (2022) 和 Yoon et al. (2023) 只关注特定错误类型。KoGEM 在覆盖面和系统性上全面超越。
- 跨语言 NLP:测试时扩展和多语言训练已被证明对非英语语言有效(Qwen 系列支持 29+ 语言),但韩语音韵等独特现象仍需专门评估。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个基于理论语言学的细粒度韩语语法基准,"经验知识"概念新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 27 个模型 + 人类对比 + 经验知识增强 + 思考时间分析 + 解释质量评估
- 写作质量: ⭐⭐⭐⭐ 分类法清晰,16 子类逐一分析深入,动机链完整
- 价值: ⭐⭐⭐⭐ 对非英语语言能力评估有重要启示,"经验知识缺失"的发现对 LLM 能力理解有理论价值