Contribution of Task-Irrelevant Stimuli to Drift of Neural Representations¶

会议: NeurIPS 2025
arXiv: 2510.21588
代码: 无
领域: 神经科学 / 表示学习 / 优化理论
关键词: representational drift, task-irrelevant noise, online learning, Hebbian learning, SGD noise

一句话总结¶

理论证明在线学习中任务无关刺激的统计特性（方差和维度）是表示漂移的重要驱动因素，在 Oja 规则、Similarity Matching、自编码器和监督两层网络中均观察到漂移率 \(D \propto \lambda_\perp^2 (n-m)\)，且学习噪声诱导的漂移具有各向异性几何特征，与高斯突触噪声的各向同性漂移定性不同。

研究背景与动机¶

领域现状：神经科学实验发现，即使行为和任务表现保持稳定，神经表示在单神经元层面会持续变化（representational drift）。计算模型从多角度重现了这一现象。
现有痛点：漂移的噪声来源不明——可能来自突触更替等生物因素，也可能来自在线学习中的采样随机性。已有工作主要关注 SGD 噪声如何驱动参数漂移到更平坦的损失景观区域，但缺乏对不同架构和学习规则的系统研究，且数据统计特性与漂移的关系不清楚。
核心矛盾：任务无关刺激被网络学会忽略（输出为零），直觉上不应影响表示。但在线学习的本质使得网络无法完全忽略数据分布的任何部分——即使被压制的刺激仍在更新权重。
核心 idea：任务无关刺激通过学习更新公式中的乘性耦合项（\(\Delta W^* = \eta \tilde{W} x_{||} x_\perp^T\)）持续扰动权重，导致任务相关表示在解流形的切空间上扩散（漂移）。

方法详解¶

整体框架¶

在线学习设定下，网络已收敛到最优解→继续在线学习→参数在解流形上扩散→通过 SDE（随机微分方程）近似将动力学分解为法向分量（被吸引回流形）和切向分量（纯扩散/漂移）→推导切向扩散系数作为数据分布的函数。

关键设计¶

SDE 分解框架
做什么：将学习后的参数动力学近似为连续时间随机微分方程，分解为解流形的法向和切向分量
核心思路：在解点 \(\tilde{\theta}\) 附近，法向分量 \(d\theta_N = -H(\theta_N - \tilde{\theta})dt + \sqrt{\eta}C_N d B_t\) 有 Hessian 的恢复力（均值回归），切向分量 \(d\theta_T = \sqrt{\eta}C_T dB_t'\) 是纯布朗运动。漂移率由切向扩散系数 \(C_T\) 决定
设计动机：将复杂的高维随机动力学简化为流形上的扩散问题，可解析求解
四种架构的统一分析
Oja 规则（无监督）：单层网络，学习数据的 \(m\) 维主子空间。解流形具有 \(O(m)\) 旋转对称性。漂移率 \(D_y \approx \frac{\eta^3 \lambda_\perp^2}{8}(m-1)(n-m)\)
Similarity Matching（无监督）：与 Oja 相同的主子空间学习目标，但通过不同的生物合理学习规则。得到相同的漂移率公式——说明漂移特性由任务结构而非学习规则细节决定
线性自编码器（SGD）：隐层为瓶颈，学习 \(p\) 维主子空间。\(D_h \approx \frac{\eta^3 \lambda_\perp^2}{32}(p-1)(n-p)\)
监督两层网络（SGD）：任务无关子空间由输入-输出映射 \(P\) 的零空间决定。\(D_h \approx \frac{\eta^3 \gamma^4}{16}(k-1)(k+2+(n-k)\lambda_\perp/2)\)
学习噪声 vs 突触噪声的几何区分
做什么：对比学习噪声（来自在线采样随机性）和高斯突触噪声（\(\varepsilon_{ij} \sim \mathcal{N}(0, \eta\sigma^2_{syn})\)）诱导的漂移特征
核心发现：学习噪声诱导的漂移是各向异性的（不同方向漂移率不同），突触噪声诱导的是各向同性的。两者还在漂移率与输出维度的关系上定性不同——学习噪声下呈非单调（先增后减），突触噪声下单调递增
设计动机：如果实验上能区分这两种几何模式，就能推断大脑中漂移的主要驱动机制

损失函数 / 训练策略¶

Oja/SM：无显式损失，Hebbian 在线更新
自编码器/两层网络：MSE 损失 + weight decay + SGD
所有实验使用小学习率在线学习，收敛后继续训练观察漂移

实验关键数据¶

主实验（高斯数据）¶

架构	漂移率公式	\(\lambda_\perp\) 依赖	维度依赖
Oja	\(D \approx \frac{\eta^3 \lambda_\perp^2}{8}(m-1)(n-m)\)	\(\propto \lambda_\perp^2\)	\(\propto (n-m)\)
Similarity Matching	同 Oja	\(\propto \lambda_\perp^2\)	\(\propto (n-m)\)
线性自编码器	\(D \approx \frac{\eta^3 \lambda_\perp^2}{32}(p-1)(n-p)\)	\(\propto \lambda_\perp^2\)	\(\propto (n-p)\)
监督两层	\(D \propto (k-1)(k+2+(n-k)\lambda_\perp/2)\)	线性	\(\propto (n-k)\)

所有理论预测与仿真结果高度吻合（Figure 3）。

消融实验¶

配置	关键指标	说明
MNIST，变化输出维度 \(m\)	漂移率先增后减	\(m\) 增大→表示空间扩大（增漂移）但任务无关空间缩小（减噪声），两者 trade-off
\(m = n\)	漂移率→0	无任务无关子空间，学习噪声消失
非线性网络（ReLU）	漂移率仍随 \(\lambda_\perp\) 增加	线性理论的定性结论在非线性网络中仍然成立
突触噪声 \(\sigma_{syn}\) 增大	漂移率-维度关系变为单调递增	与学习噪声的非单调关系定性不同

关键发现¶

任务无关刺激通过 \(x_{||} x_\perp^T\) 耦合项驱动漂移——两个分量必须同时存在才能产生更新
漂移率同时受两个因素控制：表示空间大小（正比于 \(m-1\)）和噪声源大小（正比于 \(n-m\)），产生非单调依赖
学习噪声 vs 突触噪声有可区分的实验预测：各向异性 vs 各向同性几何、非单调 vs 单调维度依赖
跨架构的一致性：尽管具体公式不同，所有架构都展现出漂移与任务无关刺激的依赖关系

亮点与洞察¶

乘性噪声结构：关键洞见是学习更新在解点处的形式 \(\Delta W^* \propto x_{||} x_\perp^T\)——任务相关和无关分量的乘积。这比简单的"SGD 噪声"更精确地揭示了漂移的数据依赖结构
实验可测试的预测：各向异性 vs 各向同性的几何区分可以通过长期记录实验验证，为"大脑中的漂移主要来自学习还是突触噪声"提供可操作的假设
跨学习规则的统一性：Oja 和 SM 给出相同的漂移率（尽管学习规则不同），说明漂移由任务结构决定，而非学习规则细节

局限性 / 可改进方向¶

理论主要基于线性网络和小学习率假设，在深度非线性网络中的推广需要更多工作
仅考虑了平稳数据分布，未处理非平稳环境（如持续学习/灾难性遗忘场景）
实验规模有限（玩具高斯数据 + MNIST + 简单两层网络），缺乏在大规模深度网络上的验证
未直接与神经科学实验数据对比

评分¶

新颖性: ⭐⭐⭐⭐ 将任务无关刺激与表示漂移系统关联，乘性噪声结构的洞见很优雅
实验充分度: ⭐⭐⭐ 理论为主，实验验证在简单模型上，缺乏大规模实验
写作质量: ⭐⭐⭐⭐⭐ 从直观例子到理论推导再到对比分析，层层推进，很清晰
价值: ⭐⭐⭐⭐ 对神经科学和深度学习理论均有启发，提供了可实验验证的预测