Learning to Recall with Transformers Beyond Orthogonal Embeddings¶

会议: ICLR 2026
arXiv: 2603.15923
代码: 无
领域: Transformer 理论 / 优化理论
关键词: Transformer, 记忆与检索, 存储容量, 非正交嵌入, 梯度下降分析

一句话总结¶

在随机（非正交）嵌入条件下分析单层 Transformer 在 token 检索任务上经验梯度下降的"早期阶段"，推导出模型存储容量的显式公式，揭示了样本量 N、嵌入维度 d 和序列长度 L 之间的乘法依赖关系，并证明这一缩放关系是信息论下界固有的。

研究背景与动机¶

核心矛盾¶

核心矛盾：领域现状：大型语言模型（LLM）在需要存储和检索知识的任务上（如事实回忆、问答）表现出色。Transformer 能在训练期间编码信息并在推理时检索这些信息，是这一能力的核心架构。

理解 Transformer 如何学习记忆和检索模式是深度学习理论的重要方向。现有理论分析主要在以下理想化假设下展开：

无限数据假设：分析在 population gradient 下进行，忽略了有限样本效应

正交嵌入假设：假设 token 嵌入向量相互正交，这在维度 d 远大于词汇表大小时近似成立，但在实际设置中不成立

在真实场景中，模型是在有限数据集上用经验梯度下降训练的，且嵌入是随机的非正交向量。非正交性引入了 token 间的干扰（interference），从根本上改变了学习动力学和存储容量的缩放行为。

本文的目标是在这些更现实的条件下精确分析 Transformer 的记忆-检索能力。

方法详解¶

整体框架¶

论文设置了一个简洁但有代表性的理论模型： - 架构：单层 Transformer（含一个注意力头） - 任务：token 检索——在长度为 L 的序列中找到一个信息 token，并学习从 token 到标签的一对一映射 - 嵌入：随机嵌入向量（非正交），维度为 d - 训练：有限样本 N 上的经验梯度下降

关键设计¶

Token 检索任务的形式化:

给定长度为 L 的 token 序列，其中恰好有一个"信息 token"（informative token），模型需要： - 通过注意力机制识别并选择这个信息 token - 学习从该 token 到对应标签的映射

这个任务捕捉了 LLM 中事实检索的核心计算结构：在上下文中找到相关信息并正确输出。

梯度下降早期阶段分析:

论文不追求全局收敛结果，而是精确刻画梯度下降的"早期阶段"（early phase）——即从初始化开始的前若干步迭代中模型的演化。这一阶段通常决定了模型是否能成功学习，因为在早期阶段建立的"信号方向"在后续训练中会被放大。

通过跟踪关键统计量（如注意力权重的信噪比、值矩阵的方向）在早期阶段的演化，论文推导出模型成功学习所需的条件。

存储容量的显式公式:

核心结果是一个关于存储容量的显式缩放关系，揭示了三个关键量之间的乘法依赖：

成功检索所需条件大致为：\(N \cdot d \cdot L\) 满足特定的缩放关系

具体来说： - 样本量 N：需要足够多的样本来学习 token-标签映射 - 嵌入维度 d：更高维度减少 token 间干扰，提高存储容量 - 序列长度 L：更长序列增加了注意力选择的难度

三者之间的乘法耦合是非正交嵌入的直接后果——在正交嵌入下，这些因素可以独立分析。

信息论下界:

论文不仅从上方（算法角度）分析了存储容量，还从下方（统计/信息论角度）给出了该问题的固有难度下界。

结果表明：N、d、L 之间的乘法缩放关系不是算法的局限，而是问题本身的内在性质。任何方法——无论是 Transformer 还是其他架构——在非正交嵌入下都无法绕过这一缩放瓶颈。

理论工具¶

随机矩阵理论：分析非正交随机嵌入矩阵的谱性质和 token 间干扰
高维概率：处理有限样本下经验梯度的集中不等式
信息论：建立统计下界，证明缩放关系的最优性
动力系统分析：跟踪梯度下降迭代中关键统计量的演化

实验关键数据¶

主实验：存储容量缩放验证¶

论文通过数值实验验证理论预测的缩放关系：

维度 d	序列长度 L	理论预测的临界 N	实际观测的临界 N	匹配度
小 d	小 L	较低	与理论一致	✓
小 d	大 L	较高	与理论一致	✓
大 d	小 L	较低	与理论一致	✓
大 d	大 L	中等	与理论一致	✓

消融实验：正交 vs 非正交嵌入¶

嵌入类型	存储容量缩放	说明
正交嵌入	N 与 d, L 分别独立缩放	经典设置，因素可分离
随机（非正交）嵌入	N, d, L 乘法耦合	更现实设置，三者不可分

下界验证¶

设置	算法上界（Transformer+GD）	信息论下界	间隙
非正交嵌入	\(O(f(N,d,L))\)	\(\Omega(g(N,d,L))\)	紧致（同阶）

关键发现¶

乘法缩放是固有的：N·d·L 的耦合关系源自非正交嵌入带来的 token 间干扰，不是算法的缺陷
正交假设导致过度乐观：在正交假设下推导的容量会高估真实容量
早期阶段是关键：梯度下降的最初几步决定了注意力是否能锁定正确的信息 token
维度 d 是对抗干扰的武器：增大嵌入维度可以有效降低非正交性带来的干扰
序列长度 L 的双重效应：更长序列提供更多上下文但也增加了注意力选择的搜索空间

亮点与洞察¶

填补了理论与实践之间的关键鸿沟：放松正交嵌入和无限数据假设后的分析更贴近真实 LLM 的工作方式
乘法缩放关系的优雅：一个简洁的公式统一了三个看似独立的因素（数据量、维度、序列长度）
信息论下界的重要性：不仅说明了 Transformer 能做到什么，更说明了任何方法都不能做到什么
对实际 LLM 设计的暗示：在固定计算预算下，增大嵌入维度 vs 增加训练数据 vs 缩短上下文窗口之间存在最优权衡
将 Transformer 的"记忆能力"从经验直觉提升到精确理论

局限与展望¶

仅分析单层单头 Transformer：实际 LLM 是多层多头的，层间交互和多头协作可能改变容量缩放
早期阶段分析：未覆盖训练的全局收敛行为，后期阶段可能有不同的动力学
Token 检索任务简化：真实 LLM 的任务远比单一 token 检索复杂，涉及组合和推理
随机嵌入假设：实际中嵌入是学习得到的，具有特定结构（如低秩、聚类），非均匀随机
未讨论位置编码的影响：位置编码会改变注意力计算中的有效嵌入结构

评分¶

新颖性: ⭐⭐⭐⭐⭐ (非正交嵌入下的分析填补重要理论空白)
实验充分度: ⭐⭐⭐⭐ (数值验证充分，但限于理论设定)
写作质量: ⭐⭐⭐⭐ (理论严谨，清晰度良好)
价值: ⭐⭐⭐⭐ (对理解 Transformer 记忆能力有重要贡献)