Geometric Signatures of Compositionality Across a Language Model's Lifetime¶

会议: ACL 2025
arXiv: 2410.01444
代码: jinhl9/llm-compositionality-lifetime
领域: LLM/NLP
关键词: 组合性(compositionality), 内在维度(intrinsic dimension), 流形假设, 表示几何, 训练动态, 形式-意义二分

一句话总结¶

通过将数据集的组合性程度与语言模型表示的非线性内在维度(I_d)和线性有效维度(d)联系起来，揭示了一个形式-意义二分：非线性 I_d 编码有意义的组合语义复杂度，而线性 d 编码表面词形复杂度；该对应关系在训练过程中随语言能力涌现而建立。

研究背景与动机¶

语言的组合性：语言通过有限的词汇和少量句法规则可以生成无界数量的句子，即语言虽看似高维，但可用较少的自由度解释。若语言模型是好的语言建模器，其内部表示应反映语言因组合性而产生的"相对简洁性"。
流形假设：现有工作发现 LM 将输入压缩到内在维度 I_d 远低于环境维度的非线性流形上，但尚未建立组合性程度与表示几何复杂度之间的显式联系。
线性 vs 非线性维度：先前工作分别使用 PCA 有效维度或非线性 I_d，但未系统比较二者在编码语言结构中的不同角色。两类度量可能编码互补的语言信息。
训练动态：LM 在预训练过程中何时学会组合语义？近期工作(如 BERT 上的 I_d 相变)提供了线索，但缺乏对因果 LM 和自然语言输入上的系统性研究。
表面复杂度 vs 语义复杂度：打乱单词顺序(shuffling)保留了表面词分布特性但破坏了短语级语义，为分离"形式"与"意义"提供了消融手段。
本文贡献：首次在可控组合性数据集上系统表明，输入的组合性程度映射为表示流形的几何复杂度；并揭示非线性 I_d 与线性 d 分别对应"意义"与"形式"的二分法。

方法详解¶

整体框架¶

研究思路：构造组合性程度可调的受控数据集 → 提取不同训练阶段、不同层的 LM 表示 → 分别计算非线性内在维度 I_d（TwoNN）和线性有效维度 d（PCA）→ 将几何复杂度与数据集组合性（Kolmogorov 复杂度近似）进行关联分析。同时通过打乱词序(shuffling)消融语义，分离形式与意义对维度的贡献。

模块一：可控组合性数据集¶

设计 12 个语义类别、每类 50 词的合成文法，生成 17 词的语法正确句子
通过耦合因子 k 控制组合性：k=1 时 12 个类别独立采样（12 自由度），k=2 时 bigram 联合采样（6 自由度），k=4 时仅 3 自由度
关键消融：对每个 k 构造打乱版本（随机重排词序），保留 unigram 分布但破坏短语语义
组合性度量：用 gzip 压缩后的文件大小近似 Kolmogorov 复杂度(KC)

模块二：内在维度估计¶

非线性 I_d：TwoNN 估计器——假设流形上的点服从局部均匀 Poisson 过程，利用每个点到第一和第二近邻距离比 μ = r₂/r₁ 的分布拟合 I_d。对每层所有数据点做极大似然估计
线性 d：PCA 方差截断法，保留 99% 方差对应的主成分数作为有效维度
表示提取：取 Transformer 残差流(residual stream)每层最后一个 token 的表示（因果注意力下唯一能看到全部上下文的 token）

模块三：模型与训练动态分析¶

模型选择：Pythia 系列（14M–12B，公开中间训练 checkpoint）、Llama-3-8B、Mistral-v0.1-7B
训练动态：利用 Pythia 的 143 个中间 checkpoint，追踪 I_d 和 d 随训练步数的演化
语言能力评估：在多个 zero-shot 任务（LAMBADA、PIQA、WinoGrande、ARC 等）上评估各 checkpoint，作为"组合理解能力"的代理指标

训练与评估策略¶

每种设置(k × {coherent, shuffled})随机采样 5 个 10000 条序列的数据分组，报告均值 ± 标准差
在受控数据集和 The Pile（自然语言）上分别验证
使用 Spearman 秩相关 ρ 衡量维度与 KC 的关联强度

实验结果¶

表1：维度与 Kolmogorov 复杂度的 Spearman 相关系数¶

度量	14M	70M	160M	410M	1.4B	6.9B	12B	Llama	Mistral
I_d	-0.20	-0.06	-0.20	-0.05	0.04	0.01	0.05	-0.36	0.00
d	0.90*	0.47†	-0.50†	0.96*	0.96*	0.92*	0.86*	1.0*	1.0*

核心发现：线性 d 与表面复杂度(gzip KC)高度相关(ρ>0.86)，而非线性 I_d 与 KC 几乎无相关性——说明 I_d 编码的是超越表面形式的语义组合信息。

表2（图3总结）：不同耦合因子 k 下的维度排序¶

设置	I_d 排序	d 排序	Shuffling 对 I_d	Shuffling 对 d
coherent	k=1 > k=2 > k=3 > k=4	k=1 > k=2 > k=3 > k=4	—	—
shuffled	k=1 ≈ k=2 ≈ k=3 ≈ k=4 (塌缩)	k=1 > k=2 > k=3 > k=4 (保持)	大幅下降	反而上升

核心发现：Shuffling 破坏语义后 I_d 塌缩到极低范围（shuffling feature collapse），但 d 不仅不降反而升高——这是形式-意义二分的直接证据。

其他关键发现¶

相变同步：在训练步 t≈10³ 处，I_d 出现剧烈重分布（先下降后回升），与模型在 zero-shot 任务上语言能力的突然提升精确同步
模型规模鲁棒性：I_d 不依赖隐藏维度 D（跨 Pythia 14M–12B 保持 O(10)），而 d 与 D 呈线性关系(R>0.99)——I_d 捕捉的是数据固有的自由度而非模型容量
训练动态：shuffling feature collapse 在 t≈10³ 时首次出现，恰好是模型开始学习语义特征的时间点；且在此之前 I_d 对 k 的区分同时存在于 coherent 和 shuffled 数据（反映架构归纳偏置），之后仅保留在 coherent 数据中（反映习得的语义特征）

亮点¶

新颖视角：首次将语言的组合性这一核心特性与表示空间的几何复杂度建立量化联系
形式-意义分离：I_d 编码语义、d 编码形式的二分发现极为优雅，与神经科学中的 intrinsic/embedding dimensionality 理论形成跨学科呼应
实验设计精巧：通过耦合因子 k 精确调控组合性程度，配合 shuffling 消融，实验设计因果关系清晰
训练动态分析：利用 Pythia 公开 checkpoint 追踪几何特征，发现相变与语言能力涌现的时间同步

局限性¶

受计算约束，仅考察了有限几种句法结构，未涉及递归嵌套等复杂结构
模型规模上限为 8B 参数，更大模型上的表现有待验证
维度度量只能告诉我们特征"多复杂"，无法揭示"是什么特征"——非线性特征的分离和解释仍是开放问题
gzip 作为 Kolmogorov 复杂度的近似有局限性，无法感知语义，对 coherent 与 shuffled 数据的区分完全依赖词共现模式

评分¶

新颖性: ⭐⭐⭐⭐ — 首次建立组合性与表示几何的量化联系，形式-意义二分的发现原创且深刻
技术深度: ⭐⭐⭐⭐ — 实验设计严谨（受控数据集+自然数据，多模型规模+训练动态，shuffling 消融），理论动机清晰
实用性: ⭐⭐⭐ — 主要为理论洞察，直接应用场景有限，但为理解和改进 LM 表示提供了几何工具
表达质量: ⭐⭐⭐⭐⭐ — Yoshua Bengio 组出品，写作逻辑严密，图表直观，叙事极为清晰流畅