跳转至

Anything Goes? A Crosslinguistic Study of (Im)possible Language Learning in LMs

会议: ACL 2025
arXiv: 2502.18795
代码: GitHub
领域: 认知语言学 / LM评估
关键词: 不可能语言, 语言学习偏置, GPT-2, 跨语言, 平行语料, Greenberg's Universal 20, 归纳偏置

一句话总结

跨语言研究 LM 能否区分可能语言和不可能语言——在 12 种语言(4 个语系)上训练 GPT-2 Small 的可能/不可能/未见证变体,发现模型大体上能区分可能 vs 不可能语言(单语言内),但跨语言时区分能力减弱,且对类型学未见证语言(Greenberg Universal 20 的未见证词序)的区分仅在泛化测试中有效而在困惑度上无效——LM 有部分人类样的归纳偏置但弱于人类。

背景与动机

LM 能否作为人类语言习得的认知模型?核心争议:批评者认为 LM 是"万能学习者",可以轻松学会人类不可能学会的语言——因此 LM 学会人类语言并不能说明什么。Kallini et al. (2024) 初步证明 GPT-2 能区分可能 vs 不可能的英语变体,但仅限英语,且未涉及类型学未见证语言。

核心问题

(1) LM 的学习行为能否跨语言区分可能 vs 不可能语言?(2) LM 能否区分类型学上已见证 vs 未见证的语言(如名词短语词序)?

方法详解

平行语料构建

  • OPUS12:12 语言对齐语料(~10M 英语词),确保内容一致以隔离形式差异
  • OPUS30:30 语言(较小,48K 句),作为额外测试集
  • 语言覆盖:印欧/汉藏/南岛/突厥等 4 语系

不可能语言变体

  • 逆序:句子内单词倒序
  • 局部打乱:窗口内随机打乱词序
  • 理由:人类无法习得这些模式

未见证语言变体

  • 基于 Greenberg's Universal 20:名词短语中 Dem-Num-Adj-N 的语序排列
  • 有些排列在人类语言中已见证,有些从未见证
  • 测试 LM 建模已见证 vs 未见证词序的能力

评估

  • 困惑度:衡量建模容易度
  • 泛化测试:在 OPUS30 上测试语言建模泛化能力

实验关键数据

研究问题 1:可能 vs 不可能

维度 结论
单语言内(1a) 大体上能区分——可能语言困惑度更低,但某些局部打乱变体在部分语言中差异减弱
跨语言(1b) 区分减弱——不是所有可能语言的困惑度都低于所有不可能语言

研究问题 2:已见证 vs 未见证

维度 结论
困惑度 无法区分——未见证语序的困惑度不一定更高(保留短语结构和固定词序的未见证语序也容易建模)
泛化测试 可以区分——类型学上已见证的词序在泛化测试中表现更好

核心发现

  • LM 有部分人类样的归纳偏置——不是"什么都能学"
  • 但偏置弱于人类——不是所有不可能/未见证语言都被完美排斥
  • 保留短语结构的不可能语言比完全打乱的更容易学——结构信息是关键

亮点

  • 12 语言×4 语系的跨语言验证——大幅扩展了 Kallini et al. 仅限英语的发现
  • 平行语料控制内容一致性——隔离形式差异对学习的影响
  • 可能/不可能/未见证三层区分——比简单二分更精细
  • Greenberg Universal 20 的新应用——将类型学理论引入计算实验

局限性 / 可改进方向

  • 仅 GPT-2 Small:更大模型可能有不同偏置
  • 不可能语言定义有限:仅词序变换,未涉及形态学不可能性
  • 语料规模受限:12 语言对齐限制了数据量
  • 因果vs相关:困惑度差异不直接等同于"学习偏置"

与相关工作的对比

  • vs Kallini et al. 2024:仅英语→12 语言跨语言;仅不可能→增加未见证层
  • vs Arnett & Bergen 2025:研究形态复杂度对建模的影响;本文研究可能性/类型学的影响
  • vs Chomsky et al. 2023:"LM 能学任何东西"观点;本文提供部分反证

启发与关联

  • "LM 有部分人类样偏置"是对极端立场("完全有/完全没有")的温和修正
  • 困惑度 vs 泛化测试的差异提示:不同评估方式可能捕获不同层面的"学习"
  • 类型学研究+计算实验是理解语言普遍性的有力组合

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 12语言×三层语言分类,平行语料设计精巧
  • 实验充分度: ⭐⭐⭐⭐ 可能/不可能/未见证,困惑度+泛化双评估
  • 写作质量: ⭐⭐⭐⭐⭐ 研究问题层次清晰,结论措辞谨慎
  • 价值: ⭐⭐⭐⭐ 对LM认知建模和语言普遍性研究有重要理论贡献