KoGEM: Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean¶

会议: ACL 2025
arXiv: 2506.01237
代码: https://github.com/SungHo3268/KoGEM
领域: LLM评估 / 语言学
关键词: linguistic competence, Korean grammar, benchmark, phonology, experiential knowledge, LLM evaluation

一句话总结¶

提出 KoGEM（韩语语法评估基准），包含 1,524 道基于理论语言学分类的多选题，覆盖音韵/形态/句法/语义/规范 5 大类 16 子类，零样本评估 27 个 LLM 并与人类对比，揭示 LLM 在需要经验知识的语言子类（如发音规则、音韵变化）上远逊人类，而显式补充经验知识（发音文本、语素分解）后可大幅提升。

研究背景与动机¶

LLM 语言能力评估偏向英语：现有语言能力基准主要聚焦英语的形态学和句法，对非英语语言的独特语言现象关注不足。
韩语作为粘着语有独特挑战：韩语具有丰富的形态变化（助词黏着）、独特的书写系统（한글）引发特殊音韵规则（辅音同化、元音和谐），需要独立的评估框架。
缺乏细粒度语法基准：已有韩语评估（如词汇知识测试、拼写错误检测）覆盖面窄，缺乏基于理论语言学的系统分类和细粒度子类分析。
总体分数掩盖真实能力差异：仅看五大类总分，o1-preview 全面超越人类，但这掩盖了在特定子类上的显著劣势——需要更细粒度的分析。
"语言能力"vs"统计模式匹配"的根本问题：LLM 的优秀表现可能来自大规模训练数据而非真正的语言理解（Chomsky 意义上的 linguistic competence）。
经验知识维度被忽视：人类通过日常发音体验自然习得的语言知识（subvocalization、语素分解直觉）是 LLM 难以获取的，但此前未被系统研究。

方法详解¶

框架概览¶

从四类韩国官方考试（高考 CSAT、全国统一成绩测试 NUAT、高中资格考试 HSQE、公务员考试 CSE）中提取韩语语法题目，按理论语言学分类为 5 大类 16 子类，构建多选题 QA 基准。对 27 个不同规模和类型的 LLM 进行零样本评估，并通过公开统计数据和众包获取人类表现。

关键设计¶

基于理论语言学的分类法
做什么：将 1,524 道题分为音韵学（音韵系统/音韵变化）、形态学（词性/语素/构词）、句法学（句子结构/句法特征）、语义学（词汇/词汇语义/语用）、规范（正字法/标准语/标准发音/外来词拼写/罗马化/跨类）共 16 个子类。
核心思路：利用规范语法（prescriptive grammar）作为语言能力的可度量代理，每个子类对应语言学的核心子领域。
设计动机：细粒度分类能够揭示 LLM 在不同语言维度上的异质化表现——总分高不代表每个维度都强。
多源权威数据构建
做什么：从面向韩语母语者的四类官方考试中 OCR 提取、人工校对、HTML 格式化，排除依赖图像的题目。
核心思路：三名韩语专业标注者独立分类后多数投票决定最终类别，剔除跨三类以上的题目以保证子类评估的纯度。
设计动机：官方考试题确保了难度和质量的权威性，面向母语者的考试反映真实的语言能力期望。
经验知识增强实验
做什么：在音韵变化子类中附加 g2pK 生成的发音文本（模拟人类 subvocalization），在语素子类中附加 Kiwi 工具的语素分解文本。
核心思路：将人类"隐性"使用的经验知识显式化为文本输入，测试 LLM 是否能利用这些额外信息提升表现。
设计动机：验证"LLM 在弱项维度的差距来源是知识缺失还是推理能力不足"这一核心假设。

实验¶

表1：主类别零样本准确率（部分模型）¶

模型	类型	音韵	形态	句法	语义	规范	平均
o1-preview	英/闭源	71.83	79.48	80.14	89.35	79.09	81.04
Claude-3.5-Sonnet	英/闭源	47.42	52.61	64.38	74.55	46.82	59.97
GPT-4o	英/闭源	44.60	51.49	55.48	71.95	58.64	57.87
EXAONE-3.5-32B	韩/开源	27.23	37.31	36.30	50.65	37.27	38.98
HyperCLOVA-HCX-003	韩/闭源	32.39	41.79	41.10	55.32	48.18	44.62
LLM 平均	-	31.33	37.08	39.00	51.36	35.71	40.24
人类	-	66.70	56.95	64.75	70.84	54.34	63.04

表2：LLM 生成解释的质量评估¶

模型	忠实性	连贯性	流畅度	相关性
HyperCLOVA-HCX-003	0.80	0.86	0.98	0.92
Claude-3.5-Sonnet	0.92	0.96	1.00	1.00
GPT-4o	0.86	0.94	1.00	1.00

表3：经验知识增强效果¶

子类	增强方式	提升幅度
音韵变化	+发音文本 (g2pK)	+3.1% ~ +26.3%
语素	+语素分解 (Kiwi)	+7.1% ~ +20.0%

关键发现¶

o1-preview 是唯一全面超越人类的 LLM（平均高 18%），但在音韵子类上仅高 5.13%，远低于其他维度的优势——音韵是 LLM 的"隐藏弱点"。
音韵变化子类差距最大：人类平均超过 LLM 均值 35%+，这是所有 16 个子类中最大的性能差距。
经验知识是关键瓶颈：补充发音文本后 LLM 在音韵变化上提升可达 26.3%，补充语素分解后提升可达 20.0%——证明差距主要来自知识缺失而非推理能力不足。
s1-32B 思考时间分析：模型在音韵变化、语素、语用三个子类上思考时间显著更长，恰好是与人类差距最大的子类——预示了这些子类对 LLM 而言本质上更难。
韩语中心 vs 英语中心：英语中心的 s1-32B、DeepSeek-R1 系列凭借多语言训练反超所有韩语中心模型，说明多语言训练和测试时扩展有效。
test-time scaling 有效：o1-preview、s1-32B、DeepSeek-R1 系列的表现证明推理时增加计算预算能显著提升语言能力。

亮点¶

16 子类细粒度分析揭示了"看似全能"的 LLM 的隐藏弱点——仅靠总体分数无法发现，必须深入子类。
"经验知识"概念的提出和验证：发音规则、语素分解等人类通过感官和使用自然习得的知识是 LLM 的能力盲区，但可通过显式文本化来弥补。
思考时间作为难度指标：利用 s1-32B 的思考时间间接验证了哪些子类对 LLM 本质上更困难，与性能差距高度一致。
官方考试题目作为数据源确保了难度标定和质量控制的权威性。

局限性¶

仅覆盖韩语，到其他粘着语（日语、土耳其语、芬兰语）的迁移需要额外的语言学适配。
1,524 题规模可进一步扩大，部分子类（如罗马化 42 题）样本量较少。
基于规范语法，未覆盖描述语法（实际使用中的语言变体）。
无法完全排除训练数据污染的影响，尽管 27 个模型的一致趋势降低了这一风险。
经验知识增强实验仅在两个子类上开展，语用等其他弱项子类的增强方案待探索。

评分¶

新颖性: ⭐⭐⭐⭐ 首个基于理论语言学的细粒度韩语语法基准，"经验知识"概念新颖
实验充分度: ⭐⭐⭐⭐⭐ 27 个模型 + 人类对比 + 经验知识增强 + 思考时间分析 + 解释质量评估
写作质量: ⭐⭐⭐⭐ 分类法清晰，16 子类逐一分析深入，动机链完整
价值: ⭐⭐⭐⭐ 对非英语语言能力评估有重要启示，"经验知识缺失"的发现对 LLM 能力理解有理论价值