Geometry of Decision Making in Language Models¶
会议: NeurIPS 2025
arXiv: 2511.20315
代码: 无
领域: LLM 可解释性 / 表示学习
关键词: 内在维度, 隐藏表示几何, 决策动态, 多选问答, Transformer
一句话总结¶
通过在 28 个开源 Transformer 模型上大规模测量各层隐藏表示的内在维度(Intrinsic Dimension, ID),揭示了一致的"低-高-低"维度变化模式:早期层在低维流形上操作,中间层扩展空间,后期层再压缩至与决策相关的低维表示。
研究背景与动机¶
核心问题¶
大语言模型(LLM)在多种任务上展现出强大的泛化能力,但其内部的决策过程——即模型如何从输入一步步得出预测——仍然不透明。已有工作从注意力机制、probe 分析等角度研究模型内部机制,但对隐藏表示的几何结构研究较少。
内在维度(Intrinsic Dimension)¶
内在维度是一种度量高维数据点集所在流形真实维度的统计量。直觉上,即使隐藏层有 \(d = 4096\) 维,这些表示向量可能实际集中在一个远低于 \(d\) 维的子流形上。ID 可以揭示模型各层对信息压缩和扩展的程度。
为何选择 MCQA 设置¶
多选问答(MCQA)任务提供了明确的决策结构:模型需要在有限个选项中选出正确答案。这使得研究者可以: - 量化每层对最终决策的贡献(逐层准确率) - 将 ID 变化与决策质量关联 - 控制实验变量,避免开放生成任务的不确定性
方法详解¶
整体框架¶
实验设计如下: 1. 选取 28 个开源 Transformer 模型(不同架构、不同参数量) 2. 在 MCQA 任务上输入测试数据 3. 提取每层的隐藏表示 4. 使用多种 ID 估计器计算每层的内在维度 5. 同时计算每层的 MCQA 准确率(通过在该层输出上直接做分类) 6. 分析 ID 与逐层性能的关系
关键设计¶
ID 估计方法¶
作者使用多种 ID 估计器以确保结论的鲁棒性:
| 估计器 | 类型 | 原理 |
|---|---|---|
| TwoNN | 局部方法 | 基于最近邻距离比 |
| MLE (Levina-Bickel) | 局部方法 | 最大似然估计 |
| PCA (explained variance) | 全局方法 | 解释方差比例 |
| 其他拓扑方法 | 混合 | 基于持久同调等 |
使用多种估计器的好处是避免单一方法的偏差,增强结论可信度。
逐层性能量化¶
对于每一层 \(l\),将隐藏表示 \(h^{(l)}\) 直接用于预测: - 计算各选项的表示相似度或使用线性探针(linear probe) - 得到该层的 MCQA 准确率 \(\text{Acc}^{(l)}\) - 建立 \(\text{ID}^{(l)}\) 和 \(\text{Acc}^{(l)}\) 的对应关系
训练策略¶
本文不涉及训练新模型。所有分析基于预训练的现有模型,属于分析性研究。
实验关键数据¶
主实验:ID 变化模式¶
在所有 28 个模型上,一致地观察到以下三阶段模式:
| 层区间 | ID 行为 | 解释 |
|---|---|---|
| 早期层(0-20%深度) | 低 ID | 输入嵌入在低维流形上,初始编码紧凑 |
| 中间层(20-70%深度) | ID 上升至峰值 | 空间扩展,模型探索丰富表示 |
| 后期层(70-100%深度) | ID 再次下降 | 压缩至与决策相关的低维结构 |
| 模型类别 | 典型模型 | 早期 ID | 峰值 ID | 最终 ID |
|---|---|---|---|---|
| 小模型 (~1B) | Pythia-1B, GPT-Neo-1.3B | ~10-20 | ~40-60 | ~15-25 |
| 中模型 (~7B) | LLaMA-2-7B, Mistral-7B | ~15-30 | ~80-120 | ~20-40 |
| 大模型 (~13B+) | LLaMA-2-13B, Falcon-40B | ~20-40 | ~100-150 | ~30-50 |
消融实验¶
ID 与逐层性能的关系¶
| 层区间 | 平均 MCQA 准确率 | ID 趋势 | 关系 |
|---|---|---|---|
| 早期层 | 接近随机(~25%) | 低 ID | 信息尚未整合 |
| 中间偏后层 | 快速上升 | ID 开始下降 | 决策开始形成 |
| 最后几层 | 最高 | 低 ID | 决策已压缩至低维 |
关键发现:ID 下降与准确率上升高度相关,即模型在做出决策时恰好将表示压缩至低维流形。
不同估计器的一致性¶
| 估计器对 | 秩相关系数 (Spearman) |
|---|---|
| TwoNN vs MLE | > 0.95 |
| TwoNN vs PCA | > 0.90 |
| MLE vs PCA | > 0.88 |
不同估计器给出高度一致的 ID 趋势,验证了结论的鲁棒性。
关键发现¶
-
通用的"低-高-低" ID 模式:在所有 28 个模型和多种 ID 估计器下都一致出现,这是一个架构和规模无关的特性。
-
ID 压缩与决策形成同步:最后几层 ID 急剧下降时,对应着 MCQA 准确率的快速提升,表明模型在后期层将表示投影到与任务决策对齐的结构化低维流形。
-
模型规模的影响:更大的模型倾向于有更高的峰值 ID,说明它们在中间层具有更丰富的表示空间,但最终仍压缩到相对低维的决策流形。
亮点与洞察¶
- 几何视角的新颖性:不同于探针或注意力分析,ID 分析提供了一种更本质的、与具体任务无关的几何度量
- 28 模型的大规模验证:覆盖了 Pythia, LLaMA, Mistral, Falcon, GPT-Neo 等多种架构和规模
- 对"表示学习即维度选择"的支持:结果暗示 LLM 的学习过程可以理解为在高维空间中找到正确的低维流形
- 对层剪枝/早停的启示:如果后期层主要在做维度压缩,那么可能有更高效的方式实现这一步
局限与展望¶
- 仅在 MCQA 场景下验证,开放生成任务中的 ID 模式是否一致尚未验证
- ID 估计在有限样本下存在统计噪声,尤其对极高维表示
- 未探究微调(Fine-tuning)或 RLHF 如何改变 ID 模式
- 未与 probing 准确率或信息瓶颈理论做定量对比
- 未涉及因果分析(ID 变化是决策的原因还是结果)
相关工作与启发¶
- Ansuini et al. (2019):首次在深度网络中系统研究 ID 变化模式
- Cai et al. (2023):在 Vision Transformer 中分析 ID
- 信息瓶颈理论 (Shwartz-Ziv & Tishby, 2017):认为深度学习分为"拟合"和"压缩"两个阶段,本文的 ID 模式与此一致
- 机制可解释性:Elhage et al., Olsson et al. 等从电路角度分析 Transformer
- 本文从几何角度补充了对 LLM 内部工作机制的理解
评分¶
- 新颖性: ⭐⭐⭐⭐ — 大规模 ID 分析在 LLM 中是新方向
- 技术深度: ⭐⭐⭐ — 实验设计扎实但方法本身较直接
- 实用性: ⭐⭐⭐ — 分析性工作,对模型压缩和可解释性有启发
- 清晰度: ⭐⭐⭐⭐ — 结论直观清晰
- 综合评分: 7.5/10
相关论文¶
- [NeurIPS 2025] Online Mixture of Experts: No-Regret Learning for Optimal Collective Decision-Making
- [NeurIPS 2025] Hyperbolic Fine-Tuning for Large Language Models
- [NeurIPS 2025] Correlation Dimension of Auto-Regressive Large Language Models
- [NeurIPS 2025] Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation
- [NeurIPS 2025] The Structure of Relation Decoding Linear Operators in Large Language Models