跳转至

KoGEM: Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean

会议: ACL 2025
arXiv: 2506.01237
代码: https://github.com/SungHo3268/KoGEM
领域: LLM评估 / 语言学
关键词: linguistic competence, Korean grammar, benchmark, phonology, experiential knowledge, LLM evaluation

一句话总结

提出 KoGEM(韩语语法评估基准),包含 1,524 道基于理论语言学分类的多选题,覆盖音韵/形态/句法/语义/规范 5 大类 16 子类,零样本评估 27 个 LLM 并与人类对比,揭示 LLM 在需要经验知识的语言子类(如发音规则、音韵变化)上远逊人类,而显式补充经验知识(发音文本、语素分解)后可大幅提升。

研究背景与动机

  1. LLM 语言能力评估偏向英语:现有语言能力基准主要聚焦英语的形态学和句法,对非英语语言的独特语言现象关注不足。
  2. 韩语作为粘着语有独特挑战:韩语具有丰富的形态变化(助词黏着)、独特的书写系统(한글)引发特殊音韵规则(辅音同化、元音和谐),需要独立的评估框架。
  3. 缺乏细粒度语法基准:已有韩语评估(如词汇知识测试、拼写错误检测)覆盖面窄,缺乏基于理论语言学的系统分类和细粒度子类分析。
  4. 总体分数掩盖真实能力差异:仅看五大类总分,o1-preview 全面超越人类,但这掩盖了在特定子类上的显著劣势——需要更细粒度的分析。
  5. "语言能力"vs"统计模式匹配"的根本问题:LLM 的优秀表现可能来自大规模训练数据而非真正的语言理解(Chomsky 意义上的 linguistic competence)。
  6. 经验知识维度被忽视:人类通过日常发音体验自然习得的语言知识(subvocalization、语素分解直觉)是 LLM 难以获取的,但此前未被系统研究。

方法详解

框架概览

从四类韩国官方考试(高考 CSAT、全国统一成绩测试 NUAT、高中资格考试 HSQE、公务员考试 CSE)中提取韩语语法题目,按理论语言学分类为 5 大类 16 子类,构建多选题 QA 基准。对 27 个不同规模和类型的 LLM 进行零样本评估,并通过公开统计数据和众包获取人类表现。

关键设计

  1. 基于理论语言学的分类法
  2. 做什么:将 1,524 道题分为音韵学(音韵系统/音韵变化)、形态学(词性/语素/构词)、句法学(句子结构/句法特征)、语义学(词汇/词汇语义/语用)、规范(正字法/标准语/标准发音/外来词拼写/罗马化/跨类)共 16 个子类。
  3. 核心思路:利用规范语法(prescriptive grammar)作为语言能力的可度量代理,每个子类对应语言学的核心子领域。
  4. 设计动机:细粒度分类能够揭示 LLM 在不同语言维度上的异质化表现——总分高不代表每个维度都强。

  5. 多源权威数据构建

  6. 做什么:从面向韩语母语者的四类官方考试中 OCR 提取、人工校对、HTML 格式化,排除依赖图像的题目。
  7. 核心思路:三名韩语专业标注者独立分类后多数投票决定最终类别,剔除跨三类以上的题目以保证子类评估的纯度。
  8. 设计动机:官方考试题确保了难度和质量的权威性,面向母语者的考试反映真实的语言能力期望。

  9. 经验知识增强实验

  10. 做什么:在音韵变化子类中附加 g2pK 生成的发音文本(模拟人类 subvocalization),在语素子类中附加 Kiwi 工具的语素分解文本。
  11. 核心思路:将人类"隐性"使用的经验知识显式化为文本输入,测试 LLM 是否能利用这些额外信息提升表现。
  12. 设计动机:验证"LLM 在弱项维度的差距来源是知识缺失还是推理能力不足"这一核心假设。

实验

表1:主类别零样本准确率(部分模型)

模型 类型 音韵 形态 句法 语义 规范 平均
o1-preview 英/闭源 71.83 79.48 80.14 89.35 79.09 81.04
Claude-3.5-Sonnet 英/闭源 47.42 52.61 64.38 74.55 46.82 59.97
GPT-4o 英/闭源 44.60 51.49 55.48 71.95 58.64 57.87
EXAONE-3.5-32B 韩/开源 27.23 37.31 36.30 50.65 37.27 38.98
HyperCLOVA-HCX-003 韩/闭源 32.39 41.79 41.10 55.32 48.18 44.62
LLM 平均 - 31.33 37.08 39.00 51.36 35.71 40.24
人类 - 66.70 56.95 64.75 70.84 54.34 63.04

表2:LLM 生成解释的质量评估

模型 忠实性 连贯性 流畅度 相关性
HyperCLOVA-HCX-003 0.80 0.86 0.98 0.92
Claude-3.5-Sonnet 0.92 0.96 1.00 1.00
GPT-4o 0.86 0.94 1.00 1.00

表3:经验知识增强效果

子类 增强方式 提升幅度
音韵变化 +发音文本 (g2pK) +3.1% ~ +26.3%
语素 +语素分解 (Kiwi) +7.1% ~ +20.0%

关键发现

  • o1-preview 是唯一全面超越人类的 LLM(平均高 18%),但在音韵子类上仅高 5.13%,远低于其他维度的优势——音韵是 LLM 的"隐藏弱点"。
  • 音韵变化子类差距最大:人类平均超过 LLM 均值 35%+,这是所有 16 个子类中最大的性能差距。
  • 经验知识是关键瓶颈:补充发音文本后 LLM 在音韵变化上提升可达 26.3%,补充语素分解后提升可达 20.0%——证明差距主要来自知识缺失而非推理能力不足。
  • s1-32B 思考时间分析:模型在音韵变化、语素、语用三个子类上思考时间显著更长,恰好是与人类差距最大的子类——预示了这些子类对 LLM 而言本质上更难。
  • 韩语中心 vs 英语中心:英语中心的 s1-32B、DeepSeek-R1 系列凭借多语言训练反超所有韩语中心模型,说明多语言训练和测试时扩展有效。
  • test-time scaling 有效:o1-preview、s1-32B、DeepSeek-R1 系列的表现证明推理时增加计算预算能显著提升语言能力。

亮点

  • 16 子类细粒度分析揭示了"看似全能"的 LLM 的隐藏弱点——仅靠总体分数无法发现,必须深入子类。
  • "经验知识"概念的提出和验证:发音规则、语素分解等人类通过感官和使用自然习得的知识是 LLM 的能力盲区,但可通过显式文本化来弥补。
  • 思考时间作为难度指标:利用 s1-32B 的思考时间间接验证了哪些子类对 LLM 本质上更困难,与性能差距高度一致。
  • 官方考试题目作为数据源确保了难度标定和质量控制的权威性。

局限性

  • 仅覆盖韩语,到其他粘着语(日语、土耳其语、芬兰语)的迁移需要额外的语言学适配。
  • 1,524 题规模可进一步扩大,部分子类(如罗马化 42 题)样本量较少。
  • 基于规范语法,未覆盖描述语法(实际使用中的语言变体)。
  • 无法完全排除训练数据污染的影响,尽管 27 个模型的一致趋势降低了这一风险。
  • 经验知识增强实验仅在两个子类上开展,语用等其他弱项子类的增强方案待探索。

相关工作

  • 语言能力探测:Conneau et al. (2018)、Hewitt & Manning (2019) 等通过探针方法评估模型隐层表示中的语言信息,但局限于英语形态/句法,且不直接评估系统化语法能力。
  • 韩语知识评估:Son et al. (2024) 聚焦词汇知识,Kim et al. (2024a) 做了一般性韩语语法评估但分类不明确,Koo et al. (2022) 和 Yoon et al. (2023) 只关注特定错误类型。KoGEM 在覆盖面和系统性上全面超越。
  • 跨语言 NLP:测试时扩展和多语言训练已被证明对非英语语言有效(Qwen 系列支持 29+ 语言),但韩语音韵等独特现象仍需专门评估。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个基于理论语言学的细粒度韩语语法基准,"经验知识"概念新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 27 个模型 + 人类对比 + 经验知识增强 + 思考时间分析 + 解释质量评估
  • 写作质量: ⭐⭐⭐⭐ 分类法清晰,16 子类逐一分析深入,动机链完整
  • 价值: ⭐⭐⭐⭐ 对非英语语言能力评估有重要启示,"经验知识缺失"的发现对 LLM 能力理解有理论价值