RNNs Perform Task Computations by Dynamically Warping Neural Representations¶
会议: NeurIPS 2025
arXiv: 2512.04310
代码: 无
领域: 计算神经科学 / 动态系统
关键词: RNN, 黎曼几何, 表示几何, 动态系统, 流形变形
一句话总结¶
本文提出一个黎曼几何框架,通过将表示空间度量从 RNN 状态空间拉回(pullback)到输入流形上,证明 RNN 通过动态变形(warping)其对任务变量的表示来执行计算——压缩无关输入、拉伸决策边界附近的空间,且这种变形不是副产物而是计算本身。
研究背景与动机¶
领域现状:理解神经网络如何通过其内部激活表示数据特征(即"神经表示"的几何结构)是机器学习和计算神经科学的核心问题。大量工作聚焦于静态表示几何(如深度网络各层的流形分析),而另一条线关注动态系统如何通过时变动力学执行计算(computation-through-dynamics)。
现有痛点:这两个方向之间的联系薄弱——既有的表示几何分析工具主要面向静态输入的前馈网络,无法处理接收时变输入的动态系统(如 RNN)。现有分析 RNN 计算的方法多依赖固定点附近的线性化分析,只能描述稳态行为,丢失了瞬态动态中的关键计算信息。
核心矛盾:RNN 的计算发生在整个时间轴上(包括远离吸引子的瞬态过程),但现有数学工具只能刻画稳态附近的局部行为。需要一种理论框架能刻画动态系统在接收时变输入时,其表示流形的完整时变几何。
本文目标 如何从输入函数的流形推导出动态系统状态流形的拓扑和几何?这种几何如何随时间变化?这种変化与计算之间是什么关系?
切入角度:作者假设 RNN 通过动态变形其执行变量的表示来完成计算,并通过引入"表示度量"——将 RNN 状态空间的度量拉回到输入流形上的 pullback metric——来定量刻画这种变形。
核心 idea:定义 RNN 的时变 pullback 度量来量化其表示流形的内在几何如何随计算过程动态变形。
方法详解¶
整体框架¶
框架分三层:(1) 证明如果时变输入函数位于 \(m\) 维流形上,则动态系统的状态被约束在至多 \(m+1\) 维的流形上(拓扑定理);(2) 定义该状态流形上的"表示度量"为从状态空间到输入流形的 pullback metric,通过求解伴随微分方程计算;(3) 将此框架应用于三类任务的 RNN,揭示动态变形的普遍性。
关键设计¶
-
输入流形到状态流形的拓扑约束(Theorem 3.1):
- 功能:建立输入函数流形维度与 RNN 状态流形维度之间的严格关系
- 核心思路:如果时变输入函数 \(u(t)\) 位于 \(m\) 维流形 \(\mathcal{M}\) 上(每个点对应一个不同的时变函数),则 RNN 在有限时间内的状态轨迹被约束在至多 \(m+1\) 维的流形上。关键洞察是考虑的是函数空间中的维度(不同的输入函数),而非某个时刻输入状态空间的维度
- 设计动机:传统分析关注输入在状态空间的瞬时维度,而本文关注输入函数流形的维度,这是非平凡的——因为"可控系统"中单个输入函数就能让系统达到任意状态
-
表示度量与 Pullback 构造(Theorem 3.3/3.4):
- 功能:定量描述 RNN 状态流形的时变内在几何
- 核心思路:定义度量张量 \(G_{ij} = \partial_{u_i} x \cdot \partial_{u_j} x\),其中 \(\partial_{u_i} x\) 是系统状态关于第 \(i\) 个输入参数的偏导。对角项 \(G_{ii}\) 表征空间沿该方向的拉伸/压缩程度,非对角项表征不同输入编码的相关性。通过求解伴随 ODE 可高效计算该度量随时间的变化
- 设计动机:该度量由状态空间的欧氏结构自然诱导,不是人为选择的,刻画了表示流形在高维状态空间中的真实几何形状
-
因果验证——变形的必要性与充分性:
- 功能:证明变形不是计算的副产物,而是计算本身
- 核心思路:在上下文决策任务中,(a) 约束 RNN 不能变形(强制度量对角项比值为 1),模型无法收敛;(b) 仅训练 RNN 执行变形(不训练任务损失),模型几乎达到完整任务的性能。这说明变形是计算的充要条件
- 设计动机:回应审稿人关于"观察到的几何变化是否仅为相关性"的质疑
损失函数 / 训练策略¶
用标准 MSE 损失训练 RNN 完成具体任务(上下文决策、工作记忆、BCI 解码等),然后用所提框架对训练好的模型进行事后分析。因果实验中在训练损失中加入度量比值约束项。
实验关键数据¶
主实验¶
| 任务 | 模型 | 输入流形 | 关键发现 |
|---|---|---|---|
| 上下文决策 | vanilla RNN | 2D(两个刺激角度) | 无关输入维度被压缩,决策边界附近空间被拉伸 |
| 工作记忆 | vanilla RNN | 2D 环面(两个记忆项) | 编码阶段环面动态变形,延迟阶段几何保持稳定 |
| 记忆减法 | vanilla RNN | 2D→1D | 流形从 2D 动态坍缩到近 1D 以编码差值 |
| BCI 解码 | SSM (POSSM) | \(S^1 \times \mathbb{R}\)(方向×速度) | 更快的光标运动对应神经活动沿轨迹加速 |
消融实验¶
| 配置 | 测试 MSE | 说明 |
|---|---|---|
| 完整模型(baseline) | 0.001 | 正常训练的 RNN |
| 约束不变形(\(c=1\)) | 不收敛 | 无法完成任务,变形是必要的 |
| 仅训练变形(\(c=c^*\)) | ~0.002 | 接近 baseline,变形是充分的 |
关键发现¶
- 在上下文决策任务中,RNN 不仅压缩无关刺激的表示(已知现象),还在决策边界附近拉伸相关刺激的空间——这是一个此前未被报告的新发现
- 工作记忆任务中环面的弯曲(非零曲率)表明"正交编码"的经典观点不够准确
- 变形在不同非线性函数(Tanh、ReLU、Softplus、GeLU)下高度一致,测地距离差异 <0.023
- 框架可推广到 SSM 等其他动态系统架构
亮点与洞察¶
- 从相关到因果的验证是最大亮点。通过约束度量来验证变形的必要性和充分性,将"观察到变形"提升到"变形即计算",这在表示几何分析中本身就是方法论创新
- 理论在函数空间中定义维度而非状态空间,这是非平凡的。一个 1D 输入函数在可控系统中能到达任意状态,但函数空间视角下它仅约束 2D 流形——这个区分很关键
- 该框架可迁移到任何动态系统(SSM、NeuralODE、甚至自回归 Transformer),只要能定义有意义的输入函数流形
局限与展望¶
- 实验主要集中在计算神经科学主题的"小型"任务上,未展示在大规模 ML 任务(如语言建模)中的应用
- 需要预先定义感兴趣的输入流形(如"不同方向和速度"),在更复杂任务中这一步不一定直观
- 度量的计算需要求解伴随 ODE,对大规模模型可能存在计算瓶颈
- 因果验证仅在一个任务上完成,泛化性待进一步验证
相关工作与启发¶
- vs 固定点/吸引子分析 (Mante et al. 2013): 传统方法线性化分析固定点附近的动力学,只能描述稳态。本文分析完整非线性动态的时变几何,发现变形在瞬态早期就开始——远早于收敛到任何固定点
- vs 静态 pullback 分析 (Hauser & Ray 2017): 之前将 pullback metric 应用于前馈网络的静态输入,本文将其推广到接收时变输入的动态系统,需要解伴随 ODE
- vs 低秩 RNN (Valente et al. 2022): 低秩 RNN 约束嵌入维度,本文约束内在维度,两者互补——低秩给出线性嵌入空间,本文给出非线性流形的几何
评分¶
- 新颖性: ⭐⭐⭐⭐ 将黎曼几何推广到时变动态系统是有意义的理论贡献
- 实验充分度: ⭐⭐⭐ 多个任务但规模较小,BCI 实验增强了说服力
- 写作质量: ⭐⭐⭐⭐⭐ 论文写作清晰优美,图示精良,直觉解释到位
- 价值: ⭐⭐⭐⭐ 为理解 RNN 计算提供了新的数学工具,但受众相对较窄
相关论文¶
- [NeurIPS 2025] Learning Dynamics of RNNs in Closed-Loop Environments
- [ICLR 2026] Addressing Divergent Representations from Causal Interventions on Neural Networks
- [NeurIPS 2025] An Empirical Investigation of Neural ODEs and Symbolic Regression for Dynamical Systems
- [ICML 2025] SUICA: Learning Super-high Dimensional Sparse Implicit Neural Representations for Spatial Transcriptomics
- [ICML 2025] On the Importance of Gaussianizing Representations