RNNs Perform Task Computations by Dynamically Warping Neural Representations¶

会议: NeurIPS 2025
arXiv: 2512.04310
代码: 无
领域: 计算神经科学 / 动态系统
关键词: RNN, 黎曼几何, 表示几何, 动态系统, 流形变形

一句话总结¶

本文提出一个黎曼几何框架，通过将表示空间度量从 RNN 状态空间拉回（pullback）到输入流形上，证明 RNN 通过动态变形（warping）其对任务变量的表示来执行计算——压缩无关输入、拉伸决策边界附近的空间，且这种变形不是副产物而是计算本身。

研究背景与动机¶

领域现状：理解神经网络如何通过其内部激活表示数据特征（即"神经表示"的几何结构）是机器学习和计算神经科学的核心问题。大量工作聚焦于静态表示几何（如深度网络各层的流形分析），而另一条线关注动态系统如何通过时变动力学执行计算（computation-through-dynamics）。

现有痛点：这两个方向之间的联系薄弱——既有的表示几何分析工具主要面向静态输入的前馈网络，无法处理接收时变输入的动态系统（如 RNN）。现有分析 RNN 计算的方法多依赖固定点附近的线性化分析，只能描述稳态行为，丢失了瞬态动态中的关键计算信息。

核心矛盾：RNN 的计算发生在整个时间轴上（包括远离吸引子的瞬态过程），但现有数学工具只能刻画稳态附近的局部行为。需要一种理论框架能刻画动态系统在接收时变输入时，其表示流形的完整时变几何。

本文目标 如何从输入函数的流形推导出动态系统状态流形的拓扑和几何？这种几何如何随时间变化？这种変化与计算之间是什么关系？

切入角度：作者假设 RNN 通过动态变形其执行变量的表示来完成计算，并通过引入"表示度量"——将 RNN 状态空间的度量拉回到输入流形上的 pullback metric——来定量刻画这种变形。

核心 idea：定义 RNN 的时变 pullback 度量来量化其表示流形的内在几何如何随计算过程动态变形。

方法详解¶

整体框架¶

框架分三层：(1) 证明如果时变输入函数位于 \(m\) 维流形上，则动态系统的状态被约束在至多 \(m+1\) 维的流形上（拓扑定理）；(2) 定义该状态流形上的"表示度量"为从状态空间到输入流形的 pullback metric，通过求解伴随微分方程计算；(3) 将此框架应用于三类任务的 RNN，揭示动态变形的普遍性。

关键设计¶

输入流形到状态流形的拓扑约束（Theorem 3.1）:
- 功能：建立输入函数流形维度与 RNN 状态流形维度之间的严格关系
- 核心思路：如果时变输入函数 \(u(t)\) 位于 \(m\) 维流形 \(\mathcal{M}\) 上（每个点对应一个不同的时变函数），则 RNN 在有限时间内的状态轨迹被约束在至多 \(m+1\) 维的流形上。关键洞察是考虑的是函数空间中的维度（不同的输入函数），而非某个时刻输入状态空间的维度
- 设计动机：传统分析关注输入在状态空间的瞬时维度，而本文关注输入函数流形的维度，这是非平凡的——因为"可控系统"中单个输入函数就能让系统达到任意状态
表示度量与 Pullback 构造（Theorem 3.3/3.4）:
- 功能：定量描述 RNN 状态流形的时变内在几何
- 核心思路：定义度量张量 \(G_{ij} = \partial_{u_i} x \cdot \partial_{u_j} x\)，其中 \(\partial_{u_i} x\) 是系统状态关于第 \(i\) 个输入参数的偏导。对角项 \(G_{ii}\) 表征空间沿该方向的拉伸/压缩程度，非对角项表征不同输入编码的相关性。通过求解伴随 ODE 可高效计算该度量随时间的变化
- 设计动机：该度量由状态空间的欧氏结构自然诱导，不是人为选择的，刻画了表示流形在高维状态空间中的真实几何形状
因果验证——变形的必要性与充分性:
- 功能：证明变形不是计算的副产物，而是计算本身
- 核心思路：在上下文决策任务中，(a) 约束 RNN 不能变形（强制度量对角项比值为 1），模型无法收敛；(b) 仅训练 RNN 执行变形（不训练任务损失），模型几乎达到完整任务的性能。这说明变形是计算的充要条件
- 设计动机：回应审稿人关于"观察到的几何变化是否仅为相关性"的质疑

损失函数 / 训练策略¶

用标准 MSE 损失训练 RNN 完成具体任务（上下文决策、工作记忆、BCI 解码等），然后用所提框架对训练好的模型进行事后分析。因果实验中在训练损失中加入度量比值约束项。

实验关键数据¶

主实验¶

任务	模型	输入流形	关键发现
上下文决策	vanilla RNN	2D（两个刺激角度）	无关输入维度被压缩，决策边界附近空间被拉伸
工作记忆	vanilla RNN	2D 环面（两个记忆项）	编码阶段环面动态变形，延迟阶段几何保持稳定
记忆减法	vanilla RNN	2D→1D	流形从 2D 动态坍缩到近 1D 以编码差值
BCI 解码	SSM (POSSM)	\(S^1 \times \mathbb{R}\)（方向×速度）	更快的光标运动对应神经活动沿轨迹加速

消融实验¶

配置	测试 MSE	说明
完整模型（baseline）	0.001	正常训练的 RNN
约束不变形（\(c=1\)）	不收敛	无法完成任务，变形是必要的
仅训练变形（\(c=c^*\)）	~0.002	接近 baseline，变形是充分的

关键发现¶

在上下文决策任务中，RNN 不仅压缩无关刺激的表示（已知现象），还在决策边界附近拉伸相关刺激的空间——这是一个此前未被报告的新发现
工作记忆任务中环面的弯曲（非零曲率）表明"正交编码"的经典观点不够准确
变形在不同非线性函数（Tanh、ReLU、Softplus、GeLU）下高度一致，测地距离差异 <0.023
框架可推广到 SSM 等其他动态系统架构

亮点与洞察¶

从相关到因果的验证是最大亮点。通过约束度量来验证变形的必要性和充分性，将"观察到变形"提升到"变形即计算"，这在表示几何分析中本身就是方法论创新
理论在函数空间中定义维度而非状态空间，这是非平凡的。一个 1D 输入函数在可控系统中能到达任意状态，但函数空间视角下它仅约束 2D 流形——这个区分很关键
该框架可迁移到任何动态系统（SSM、NeuralODE、甚至自回归 Transformer），只要能定义有意义的输入函数流形

局限与展望¶

实验主要集中在计算神经科学主题的"小型"任务上，未展示在大规模 ML 任务（如语言建模）中的应用
需要预先定义感兴趣的输入流形（如"不同方向和速度"），在更复杂任务中这一步不一定直观
度量的计算需要求解伴随 ODE，对大规模模型可能存在计算瓶颈
因果验证仅在一个任务上完成，泛化性待进一步验证

评分¶

新颖性: ⭐⭐⭐⭐ 将黎曼几何推广到时变动态系统是有意义的理论贡献
实验充分度: ⭐⭐⭐ 多个任务但规模较小，BCI 实验增强了说服力
写作质量: ⭐⭐⭐⭐⭐ 论文写作清晰优美，图示精良，直觉解释到位
价值: ⭐⭐⭐⭐ 为理解 RNN 计算提供了新的数学工具，但受众相对较窄