Disaggregation Reveals Hidden Training Dynamics: The Case of Agreement Attraction¶

会议: NeurIPS 2025
arXiv: 2510.24934
代码: https://github.com/jmichaelov/sv-disaggregation-cognitive-interpretability
领域: llm_nlp
关键词: 训练动态, 主谓一致, 分解分析, agreement attraction, 语法学习

一句话总结¶

通过将聚合的语法评测指标分解到实验条件层面并追踪训练过程中的变化，发现语言模型的语法学习并非渐进单调的，而是经历了一系列隐藏的突破阶段——先学习词频偏好、再学习局部上下文（n-gram），最后逐步掌握更远距离的语法依赖关系。

研究背景与动机¶

领域共识：语言模型通常能生成语法正确的文本，主谓一致（subject-verb agreement）是早期就能学会的基本语法能力，甚至传统 LSTM 也能处理简单情况。
已知困难：当句子中存在"干扰名词"（attractor）时（如 "The athletes near the bike know/knows"），模型更容易犯错——这与人类心理语言学中的 agreement attraction 效应一致。
核心问题：
模型到底学到了通用的语法规则还是只是越来越复杂的表面启发式？
聚合指标（准确率）隐藏了什么样的训练动态？
训练过程中，模型何时、如何学会处理不同复杂度的语法结构？
方法论创新：借鉴心理语言学中的两大方法——分析错误模式 + 追踪习得过程——对模型行为进行条件层面的纵向分析。

方法详解¶

整体框架¶

实验设计： - 使用精心构造的最小对比句（minimal pairs），包含 2×2 的实验条件设计： - 主语数（单数/复数）× 干扰名词数（匹配/不匹配） - 加上无干扰的简单条件作为基线 - 在训练过程的多个 checkpoint 上分别评估每个条件的准确率 - 对比聚合指标 vs 分解指标的差异

数据来源： 1. BIG-bench 的 simple_english 子集（简单主谓一致） 2. BIG-bench 的 nounpp_english 子集（带介词短语干扰） 3. Bock & Cutting (1992) 的心理语言学经典刺激材料（介词短语干扰 + 仅使用 be 动词）

关键设计¶

模型选择：PolyPythia 系列
使用 PolyPythia（van der Wal et al., 2024）——Pythia 模型的多随机种子版本
覆盖 14M 到 410M 参数的多个规模
每个规模 10 个随机种子，提供统计稳定性
多个训练 checkpoint（尤其是训练早期有密集 checkpoint）
关键优势：跨规模、跨种子可比较（相同 tokenizer、相同 token 数步数对应关系）
评估指标
计算每个动词在其上下文中的对数概率
正确 = 正确形式的对数概率 > 错误形式
单 token 动词 vs 多 token 动词分开分析
多 token 词的对数概率 = token 对数概率之和
分解维度
按动词类型：be 动词（is/are）vs 其他动词
按条件：singular / plural × no-attractor / match-attractor / mismatch-attractor
按token 化方式：单 token 动词 vs 多 token 动词（如 admires = 2 token）

损失函数 / 训练策略¶

本文不训练新模型。使用预训练好的 PolyPythia 系列模型的各个 checkpoint 进行评估，研究的是训练动态而非训练方法。

实验关键数据¶

主实验¶

三阶段训练动态（核心发现）：

阶段 1：词频偏好（早期） - be 动词：模型几乎总是预测 "is" 比 "are" 更可能（因为 is 在语料中更频繁） - 其他动词：模型偏好复数形式（如 "admire" 而非 "admires"），因为复数形式即动词原形，频率更高 - 此阶段聚合准确率接近 50%（看似无学习）

阶段 2：局部上下文敏感（steps 128-512） - be 动词：复数条件和复数+匹配干扰条件准确率急剧上升 - 但复数+不匹配干扰条件准确率反而下降——agreement attraction 效应出现 - 同时单数+不匹配干扰条件也出现准确率下降 - 其他动词：对称的反向模式 - 此阶段聚合准确率开始缓慢上升

阶段 3：全面提升（后期） - 所有条件的准确率逐步提升 - 更大模型更快更完整地完成这一阶段 - 较小模型（14M）开始更晚且不够稳定

消融实验¶

多 token 动词的延迟学习： - 相同的三阶段模式存在，但阶段 2 出现更晚 - 原因分析：单 token 动词对前一 token 敏感（bigram 级别行为），多 token 动词的第二个 token 需要考虑前两个 token（trigram 级别行为） - 性能下降幅度更小

跨模型规模一致性： - 14M: 所有阶段延迟且不完全 - 70M-410M: 模式清晰一致 - 模型越大，阶段转换越快越完整

跨随机种子稳定性： - 大模型：跨种子模式高度一致 - 小模型：存在一定变异性（某些种子出现短暂的偏好反转）

关键发现¶

聚合指标严重掩盖了训练动态：看似渐进的准确率提升，实际上由多个快速的、非单调的"隐藏突破"组成
学习顺序与 n-gram 复杂度对应：先学 unigram（频率）→ bigram（前一个词）→ trigram（前两个词）→ 更长依赖
Agreement attraction 效应是训练中的瞬态现象：在阶段 2 最强，随着训练继续逐渐减弱但不完全消失
分解分析可以在不进行机制分析的情况下，提供对模型行为的可解释性理解

亮点与洞察¶

方法论突破：将心理语言学的实验设计方法（条件分解 + 纵向追踪）引入 LM 训练动态分析，展示了"理论驱动的数据分解"的强大威力
"隐藏突破"概念的实证支持：与 Kangaslahti et al. (2025) 的理论互相印证——看似渐进的学习实际上由多个离散的突破阶段组成
对 emergence 辩论的贡献：学习既非"突然涌现"也非"纯粹渐进"，而是多阶段结构化的
n-gram 假说的新证据：训练中 transformer 可能从低阶 n-gram 统计到高阶统计逐步过拟合
对 benchmark 设计的启示：如果一个语法任务可以靠 bigram 统计解决，那么模型在该任务上的高分不能证明它学到了通用语法规则

局限性 / 可改进方向¶

仅限英语主谓一致：未验证这些训练动态模式是否在其他语法现象（如长距离依赖、嵌套子句）或其他语言中也成立
仅限 PolyPythia 系列：最大模型仅 410M 参数，更大规模模型的训练动态可能不同
干扰类型单一：仅考虑介词短语中的干扰名词，未涉及关系从句等更复杂的干扰结构
解释性而非验证性研究：发现了有趣的模式但未做确认性分析
缺乏机制层面分析：未深入探究注意力头或 MLP 的内部行为如何支持观察到的阶段转换

评分¶

新颖性: ⭐⭐⭐⭐ 方法论创新（心理语言学+训练动态的结合）带来了有意义的新发现
实验充分度: ⭐⭐⭐⭐ 多模型规模、多随机种子、多数据集、细致的条件分解
写作质量: ⭐⭐⭐⭐⭐ 叙述流畅，从心理语言学到模型分析的逻辑线非常清晰
价值: ⭐⭐⭐⭐ 对理解 LM 训练动态有重要方法论启示，对 benchmark 设计有实际指导意义