Anything Goes? A Crosslinguistic Study of (Im)possible Language Learning in LMs¶
会议: ACL 2025
arXiv: 2502.18795
代码: GitHub
领域: 认知语言学 / LM评估
关键词: 不可能语言, 语言学习偏置, GPT-2, 跨语言, 平行语料, Greenberg's Universal 20, 归纳偏置
一句话总结¶
跨语言研究 LM 能否区分可能语言和不可能语言——在 12 种语言(4 个语系)上训练 GPT-2 Small 的可能/不可能/未见证变体,发现模型大体上能区分可能 vs 不可能语言(单语言内),但跨语言时区分能力减弱,且对类型学未见证语言(Greenberg Universal 20 的未见证词序)的区分仅在泛化测试中有效而在困惑度上无效——LM 有部分人类样的归纳偏置但弱于人类。
背景与动机¶
LM 能否作为人类语言习得的认知模型?核心争议:批评者认为 LM 是"万能学习者",可以轻松学会人类不可能学会的语言——因此 LM 学会人类语言并不能说明什么。Kallini et al. (2024) 初步证明 GPT-2 能区分可能 vs 不可能的英语变体,但仅限英语,且未涉及类型学未见证语言。
核心问题¶
(1) LM 的学习行为能否跨语言区分可能 vs 不可能语言?(2) LM 能否区分类型学上已见证 vs 未见证的语言(如名词短语词序)?
方法详解¶
平行语料构建¶
- OPUS12:12 语言对齐语料(~10M 英语词),确保内容一致以隔离形式差异
- OPUS30:30 语言(较小,48K 句),作为额外测试集
- 语言覆盖:印欧/汉藏/南岛/突厥等 4 语系
不可能语言变体¶
- 逆序:句子内单词倒序
- 局部打乱:窗口内随机打乱词序
- 理由:人类无法习得这些模式
未见证语言变体¶
- 基于 Greenberg's Universal 20:名词短语中 Dem-Num-Adj-N 的语序排列
- 有些排列在人类语言中已见证,有些从未见证
- 测试 LM 建模已见证 vs 未见证词序的能力
评估¶
- 困惑度:衡量建模容易度
- 泛化测试:在 OPUS30 上测试语言建模泛化能力
实验关键数据¶
研究问题 1:可能 vs 不可能¶
| 维度 | 结论 |
|---|---|
| 单语言内(1a) | 大体上能区分——可能语言困惑度更低,但某些局部打乱变体在部分语言中差异减弱 |
| 跨语言(1b) | 区分减弱——不是所有可能语言的困惑度都低于所有不可能语言 |
研究问题 2:已见证 vs 未见证¶
| 维度 | 结论 |
|---|---|
| 困惑度 | 无法区分——未见证语序的困惑度不一定更高(保留短语结构和固定词序的未见证语序也容易建模) |
| 泛化测试 | 可以区分——类型学上已见证的词序在泛化测试中表现更好 |
核心发现¶
- LM 有部分人类样的归纳偏置——不是"什么都能学"
- 但偏置弱于人类——不是所有不可能/未见证语言都被完美排斥
- 保留短语结构的不可能语言比完全打乱的更容易学——结构信息是关键
亮点¶
- 12 语言×4 语系的跨语言验证——大幅扩展了 Kallini et al. 仅限英语的发现
- 平行语料控制内容一致性——隔离形式差异对学习的影响
- 可能/不可能/未见证三层区分——比简单二分更精细
- Greenberg Universal 20 的新应用——将类型学理论引入计算实验
局限性 / 可改进方向¶
- 仅 GPT-2 Small:更大模型可能有不同偏置
- 不可能语言定义有限:仅词序变换,未涉及形态学不可能性
- 语料规模受限:12 语言对齐限制了数据量
- 因果vs相关:困惑度差异不直接等同于"学习偏置"
与相关工作的对比¶
- vs Kallini et al. 2024:仅英语→12 语言跨语言;仅不可能→增加未见证层
- vs Arnett & Bergen 2025:研究形态复杂度对建模的影响;本文研究可能性/类型学的影响
- vs Chomsky et al. 2023:"LM 能学任何东西"观点;本文提供部分反证
启发与关联¶
- "LM 有部分人类样偏置"是对极端立场("完全有/完全没有")的温和修正
- 困惑度 vs 泛化测试的差异提示:不同评估方式可能捕获不同层面的"学习"
- 类型学研究+计算实验是理解语言普遍性的有力组合
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 12语言×三层语言分类,平行语料设计精巧
- 实验充分度: ⭐⭐⭐⭐ 可能/不可能/未见证,困惑度+泛化双评估
- 写作质量: ⭐⭐⭐⭐⭐ 研究问题层次清晰,结论措辞谨慎
- 价值: ⭐⭐⭐⭐ 对LM认知建模和语言普遍性研究有重要理论贡献