Anything Goes? A Crosslinguistic Study of (Im)possible Language Learning in LMs¶

会议: ACL 2025
arXiv: 2502.18795
代码: GitHub
领域: 认知语言学 / LM评估
关键词: 不可能语言, 语言学习偏置, GPT-2, 跨语言, 平行语料, Greenberg's Universal 20, 归纳偏置

一句话总结¶

跨语言研究 LM 能否区分可能语言和不可能语言——在 12 种语言（4 个语系）上训练 GPT-2 Small 的可能/不可能/未见证变体，发现模型大体上能区分可能 vs 不可能语言（单语言内），但跨语言时区分能力减弱，且对类型学未见证语言（Greenberg Universal 20 的未见证词序）的区分仅在泛化测试中有效而在困惑度上无效——LM 有部分人类样的归纳偏置但弱于人类。

背景与动机¶

LM 能否作为人类语言习得的认知模型？核心争议：批评者认为 LM 是"万能学习者"，可以轻松学会人类不可能学会的语言——因此 LM 学会人类语言并不能说明什么。Kallini et al. (2024) 初步证明 GPT-2 能区分可能 vs 不可能的英语变体，但仅限英语，且未涉及类型学未见证语言。

核心问题¶

(1) LM 的学习行为能否跨语言区分可能 vs 不可能语言？(2) LM 能否区分类型学上已见证 vs 未见证的语言（如名词短语词序）？

方法详解¶

平行语料构建¶

OPUS12：12 语言对齐语料（~10M 英语词），确保内容一致以隔离形式差异
OPUS30：30 语言（较小，48K 句），作为额外测试集
语言覆盖：印欧/汉藏/南岛/突厥等 4 语系

不可能语言变体¶

逆序：句子内单词倒序
局部打乱：窗口内随机打乱词序
理由：人类无法习得这些模式

未见证语言变体¶

基于 Greenberg's Universal 20：名词短语中 Dem-Num-Adj-N 的语序排列
有些排列在人类语言中已见证，有些从未见证
测试 LM 建模已见证 vs 未见证词序的能力

评估¶

困惑度：衡量建模容易度
泛化测试：在 OPUS30 上测试语言建模泛化能力

实验关键数据¶

研究问题 1：可能 vs 不可能¶

维度	结论
单语言内（1a）	大体上能区分——可能语言困惑度更低，但某些局部打乱变体在部分语言中差异减弱
跨语言（1b）	区分减弱——不是所有可能语言的困惑度都低于所有不可能语言

研究问题 2：已见证 vs 未见证¶

维度	结论
困惑度	无法区分——未见证语序的困惑度不一定更高（保留短语结构和固定词序的未见证语序也容易建模）
泛化测试	可以区分——类型学上已见证的词序在泛化测试中表现更好

核心发现¶

LM 有部分人类样的归纳偏置——不是"什么都能学"
但偏置弱于人类——不是所有不可能/未见证语言都被完美排斥
保留短语结构的不可能语言比完全打乱的更容易学——结构信息是关键

亮点¶

12 语言×4 语系的跨语言验证——大幅扩展了 Kallini et al. 仅限英语的发现
平行语料控制内容一致性——隔离形式差异对学习的影响
可能/不可能/未见证三层区分——比简单二分更精细
Greenberg Universal 20 的新应用——将类型学理论引入计算实验

局限性 / 可改进方向¶

仅 GPT-2 Small：更大模型可能有不同偏置
不可能语言定义有限：仅词序变换，未涉及形态学不可能性
语料规模受限：12 语言对齐限制了数据量
因果vs相关：困惑度差异不直接等同于"学习偏置"

与相关工作的对比¶

vs Kallini et al. 2024：仅英语→12 语言跨语言；仅不可能→增加未见证层
vs Arnett & Bergen 2025：研究形态复杂度对建模的影响；本文研究可能性/类型学的影响
vs Chomsky et al. 2023："LM 能学任何东西"观点；本文提供部分反证

启发与关联¶

"LM 有部分人类样偏置"是对极端立场（"完全有/完全没有"）的温和修正
困惑度 vs 泛化测试的差异提示：不同评估方式可能捕获不同层面的"学习"
类型学研究+计算实验是理解语言普遍性的有力组合

评分¶

新颖性: ⭐⭐⭐⭐⭐ 12语言×三层语言分类，平行语料设计精巧
实验充分度: ⭐⭐⭐⭐ 可能/不可能/未见证，困惑度+泛化双评估
写作质量: ⭐⭐⭐⭐⭐ 研究问题层次清晰，结论措辞谨慎
价值: ⭐⭐⭐⭐ 对LM认知建模和语言普遍性研究有重要理论贡献