Creating ConLangs to Probe the Metalinguistic Grammatical Knowledge of LLMs¶

会议: ACL 2026 arXiv: 2510.07591 代码: https://github.com/SakanaAI/IASC 领域: LLM Agent 关键词: 人造语言, 元语言知识, 形态句法变换, LLM语言能力探测, 语言类型学

一句话总结¶

本文提出 IASC（Interactive Agentic System for ConLangs），一个模块化的人造语言构建系统，通过让 LLM 按语言学规格执行形态句法变换来探测其元语言知识，发现 LLM 处理常见语言类型模式远优于罕见模式，且不同 LLM 之间能力差异悬殊。

研究背景与动机¶

领域现状：大量研究关注 LLM 的语言能力，包括翻译、句法标注等，但这些任务评估的是 LLM 对特定语言的知识，而非对语言学概念本身的理解。LLM 是否真正"理解"抽象的语言学概念（如词序、格标记、一致性等），而不只是记住了训练数据中特定语言的模式？

现有痛点：(1) 现有 LLM 语言能力评估多集中于百科知识式的测试（知道某种语言的某个事实），缺少对元语言学推理能力的系统探测；(2) 自然语言测试容易受训练数据泄露影响，LLM 可能只是"记住"了答案而非真正理解规则。

核心矛盾：LLM 在训练中接触到大量语言学文献和多语言数据，但这并不意味着它能按照给定的抽象语法规则来操纵语言结构。例如，将英语句子的词序从 SVO 改为 OVS（一种极罕见的词序）在原则上并不比改为 SOV 更难，但 LLM 的表现可能截然不同。

本文目标：(1) 提供一个灵活有趣的人造语言构建工具；(2) 利用形态句法变换任务系统探测 LLM 对不同语言类型学特征的元语言知识水平。

切入角度：构建人造语言（ConLang）要求 LLM 不只是翻译，而是根据抽象的语法规格重组句子结构、添加形态标记——这直接考验其对语言学概念的理解深度。

核心 idea：用一个模块化的人造语言构建系统作为 benchmark，通过让 LLM 将英语句子按不同的形态句法参数（词序、格系统、时态标记等）进行变换，来量化其元语言学能力。

方法详解¶

整体框架¶

IASC 是一个完整的人造语言构建 pipeline，包含音系学（phonology）、形态句法（morphosyntax）、词库（lexicon）、正字法（orthography）和语法手册（grammatical handbook）五个模块。本文重点关注形态句法模块作为 LLM 元语言知识的探测工具。输入为英语源句子 + 目标语法参数，输出为按目标语法变换后的 gloss 标注。采用累积变换策略（cumulative morphosyntax），通过多步 prompt 逐步应用不同语法特征。

关键设计¶

累积形态句法变换（Cumulative Morphosyntax）:
- 功能：将源句子逐步变换为符合目标语法规格的形式
- 核心思路：不是一次性给出所有语法规格让 LLM 变换（preliminary 实验表明效果很差），而是每次只应用一个语法特征（如先改词序，再加格标记，再加时态标记），通过迭代 prompt \(s_i = M(s_{i-1}; G; t_i)\) 逐步累积变换。每步的 prompt \(t_i\) 只关注一个特定语法特征
- 设计动机：一次性变换导致 prompt 过长且复杂，LLM 难以同时遵循多个约束。分步累积降低了每步的认知负担
九种类型学多样的语法配置:
- 功能：构建覆盖常见到罕见语言类型的评估数据集
- 核心思路：设计了受八种真实语言启发的语法配置（阿拉伯语、斐济语、法语、希克卡里亚纳语、米佐语、土耳其语、越南语、威尔士语）加一个"hard"配置（极罕见的类型学组合）。每种配置定义了词序、格系统、一致性标记、时态标记等参数。构建了 45 个源句子 × 9 种配置 = 405 个测试样本，gold data 由语言学家手工标注
- 设计动机：通过控制类型学频率来测试 LLM 是否真正理解抽象规则，还是只能处理训练数据中常见的模式
Agentic 自我改进机制:
- 功能：通过自动生成反馈来迭代改进输出
- 核心思路：部分模块（如音系学）采用 agentic 方法——LLM 先生成初始输出，然后自动生成对输出的评论/反馈，再根据反馈改进输出，迭代进行
- 设计动机：LLM 的首次输出可能不完全符合规格，通过自我审查和修正机制提高质量

实验关键数据¶

主实验¶

模型	'french' (常见)	'turkish' (常见)	'mizo' (罕见)	'hard' (极罕见)	整体表现
GPT-4.1	TER 低	TER 低	TER 中等	TER 较高	最好
Claude 3.7	TER 低	TER 低	TER 中高	TER 高	第二
Gemini 2.5	TER 中等	TER 中等	TER 高	TER 很高	中等
较小模型	TER 高	TER 高	TER 很高	TER 极高	较差

消融实验¶

配置	效果	说明
累积变换 vs 一次性变换	累积远优	一次性变换 LLM 无法同时遵循多约束
常见类型学特征 vs 罕见特征	常见远优	LLM 对 SVO/SOV 处理好，OVS/OSV 差
形态标记（前缀 vs 后缀）	后缀更好	与训练数据中后缀更常见一致
有 agentic refinement vs 无	有时改善	并非所有模块都受益

关键发现¶

LLM 对常见语言类型学模式（如 SVO、SOV 词序、后缀式形态）的处理明显优于罕见模式（如 OVS 词序、前缀式形态），与该特征在世界语言中的分布频率高度相关
不同 LLM 之间能力差异巨大：GPT-4.1 在大多数配置上表现最好，而较小模型在罕见配置上几乎完全失败
"hard" 语言配置（含极罕见类型学组合）对所有模型都极具挑战性，说明 LLM 的元语言知识仍受训练数据分布强烈约束

亮点与洞察¶

用人造语言作为探测工具：极其巧妙的实验设计——人造语言避免了训练数据泄露问题，且能精确控制语言学变量，使得评估结果可解释性极强
揭示了 LLM "语言知识"的本质：LLM 不是真正"理解"语言学概念，而是依赖训练数据中的模式分布。常见的语言类型处理好、罕见的处理差，说明其能力本质上是统计相关性而非抽象规则理解
累积变换策略：将复杂的多约束问题分解为逐步单约束变换，是一种通用的 prompt engineering 策略，可迁移到其他需要多步推理的场景

局限与展望¶

评估数据集（405 个样本）相对较小，可能不足以捕捉所有语法特征的交互效应
仅以英语为源语言，未探索从其他语言出发的变换效果
形态句法模块的 gold data 由单个语言学家标注，可能引入标注者偏差
作者也尝试了将方法应用于低资源语言翻译，但结果大多为负面，距实际应用还有距离
53 页的论文包含大量附录，核心贡献可以更集中

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用人造语言构建来探测元语言知识是非常新颖且有深度的研究视角
实验充分度: ⭐⭐⭐⭐ 九种语法配置覆盖了丰富的类型学多样性，但样本量偏小
写作质量: ⭐⭐⭐⭐ 论文极为详尽（53页），语言学背景介绍充分，但过于冗长
价值: ⭐⭐⭐⭐⭐ 对理解 LLM 的语言知识本质提供了关键洞察，IASC 工具本身也有独立价值