Contribution of Task-Irrelevant Stimuli to Drift of Neural Representations¶
会议: NeurIPS 2025
arXiv: 2510.21588
代码: 无
领域: 神经科学 / 表示学习 / 优化理论
关键词: representational drift, task-irrelevant noise, online learning, Hebbian learning, SGD noise
一句话总结¶
理论证明在线学习中任务无关刺激的统计特性(方差和维度)是表示漂移的重要驱动因素,在 Oja 规则、Similarity Matching、自编码器和监督两层网络中均观察到漂移率 \(D \propto \lambda_\perp^2 (n-m)\),且学习噪声诱导的漂移具有各向异性几何特征,与高斯突触噪声的各向同性漂移定性不同。
研究背景与动机¶
- 领域现状:神经科学实验发现,即使行为和任务表现保持稳定,神经表示在单神经元层面会持续变化(representational drift)。计算模型从多角度重现了这一现象。
- 现有痛点:漂移的噪声来源不明——可能来自突触更替等生物因素,也可能来自在线学习中的采样随机性。已有工作主要关注 SGD 噪声如何驱动参数漂移到更平坦的损失景观区域,但缺乏对不同架构和学习规则的系统研究,且数据统计特性与漂移的关系不清楚。
- 核心矛盾:任务无关刺激被网络学会忽略(输出为零),直觉上不应影响表示。但在线学习的本质使得网络无法完全忽略数据分布的任何部分——即使被压制的刺激仍在更新权重。
- 核心 idea:任务无关刺激通过学习更新公式中的乘性耦合项(\(\Delta W^* = \eta \tilde{W} x_{||} x_\perp^T\))持续扰动权重,导致任务相关表示在解流形的切空间上扩散(漂移)。
方法详解¶
整体框架¶
在线学习设定下,网络已收敛到最优解→继续在线学习→参数在解流形上扩散→通过 SDE(随机微分方程)近似将动力学分解为法向分量(被吸引回流形)和切向分量(纯扩散/漂移)→推导切向扩散系数作为数据分布的函数。
关键设计¶
- SDE 分解框架
- 做什么:将学习后的参数动力学近似为连续时间随机微分方程,分解为解流形的法向和切向分量
- 核心思路:在解点 \(\tilde{\theta}\) 附近,法向分量 \(d\theta_N = -H(\theta_N - \tilde{\theta})dt + \sqrt{\eta}C_N d B_t\) 有 Hessian 的恢复力(均值回归),切向分量 \(d\theta_T = \sqrt{\eta}C_T dB_t'\) 是纯布朗运动。漂移率由切向扩散系数 \(C_T\) 决定
-
设计动机:将复杂的高维随机动力学简化为流形上的扩散问题,可解析求解
-
四种架构的统一分析
- Oja 规则(无监督):单层网络,学习数据的 \(m\) 维主子空间。解流形具有 \(O(m)\) 旋转对称性。漂移率 \(D_y \approx \frac{\eta^3 \lambda_\perp^2}{8}(m-1)(n-m)\)
- Similarity Matching(无监督):与 Oja 相同的主子空间学习目标,但通过不同的生物合理学习规则。得到相同的漂移率公式——说明漂移特性由任务结构而非学习规则细节决定
- 线性自编码器(SGD):隐层为瓶颈,学习 \(p\) 维主子空间。\(D_h \approx \frac{\eta^3 \lambda_\perp^2}{32}(p-1)(n-p)\)
-
监督两层网络(SGD):任务无关子空间由输入-输出映射 \(P\) 的零空间决定。\(D_h \approx \frac{\eta^3 \gamma^4}{16}(k-1)(k+2+(n-k)\lambda_\perp/2)\)
-
学习噪声 vs 突触噪声的几何区分
- 做什么:对比学习噪声(来自在线采样随机性)和高斯突触噪声(\(\varepsilon_{ij} \sim \mathcal{N}(0, \eta\sigma^2_{syn})\))诱导的漂移特征
- 核心发现:学习噪声诱导的漂移是各向异性的(不同方向漂移率不同),突触噪声诱导的是各向同性的。两者还在漂移率与输出维度的关系上定性不同——学习噪声下呈非单调(先增后减),突触噪声下单调递增
- 设计动机:如果实验上能区分这两种几何模式,就能推断大脑中漂移的主要驱动机制
损失函数 / 训练策略¶
- Oja/SM:无显式损失,Hebbian 在线更新
- 自编码器/两层网络:MSE 损失 + weight decay + SGD
- 所有实验使用小学习率在线学习,收敛后继续训练观察漂移
实验关键数据¶
主实验(高斯数据)¶
| 架构 | 漂移率公式 | \(\lambda_\perp\) 依赖 | 维度依赖 |
|---|---|---|---|
| Oja | \(D \approx \frac{\eta^3 \lambda_\perp^2}{8}(m-1)(n-m)\) | \(\propto \lambda_\perp^2\) | \(\propto (n-m)\) |
| Similarity Matching | 同 Oja | \(\propto \lambda_\perp^2\) | \(\propto (n-m)\) |
| 线性自编码器 | \(D \approx \frac{\eta^3 \lambda_\perp^2}{32}(p-1)(n-p)\) | \(\propto \lambda_\perp^2\) | \(\propto (n-p)\) |
| 监督两层 | \(D \propto (k-1)(k+2+(n-k)\lambda_\perp/2)\) | 线性 | \(\propto (n-k)\) |
所有理论预测与仿真结果高度吻合(Figure 3)。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| MNIST,变化输出维度 \(m\) | 漂移率先增后减 | \(m\) 增大→表示空间扩大(增漂移)但任务无关空间缩小(减噪声),两者 trade-off |
| \(m = n\) | 漂移率→0 | 无任务无关子空间,学习噪声消失 |
| 非线性网络(ReLU) | 漂移率仍随 \(\lambda_\perp\) 增加 | 线性理论的定性结论在非线性网络中仍然成立 |
| 突触噪声 \(\sigma_{syn}\) 增大 | 漂移率-维度关系变为单调递增 | 与学习噪声的非单调关系定性不同 |
关键发现¶
- 任务无关刺激通过 \(x_{||} x_\perp^T\) 耦合项驱动漂移——两个分量必须同时存在才能产生更新
- 漂移率同时受两个因素控制:表示空间大小(正比于 \(m-1\))和噪声源大小(正比于 \(n-m\)),产生非单调依赖
- 学习噪声 vs 突触噪声有可区分的实验预测:各向异性 vs 各向同性几何、非单调 vs 单调维度依赖
- 跨架构的一致性:尽管具体公式不同,所有架构都展现出漂移与任务无关刺激的依赖关系
亮点与洞察¶
- 乘性噪声结构:关键洞见是学习更新在解点处的形式 \(\Delta W^* \propto x_{||} x_\perp^T\)——任务相关和无关分量的乘积。这比简单的"SGD 噪声"更精确地揭示了漂移的数据依赖结构
- 实验可测试的预测:各向异性 vs 各向同性的几何区分可以通过长期记录实验验证,为"大脑中的漂移主要来自学习还是突触噪声"提供可操作的假设
- 跨学习规则的统一性:Oja 和 SM 给出相同的漂移率(尽管学习规则不同),说明漂移由任务结构决定,而非学习规则细节
局限性 / 可改进方向¶
- 理论主要基于线性网络和小学习率假设,在深度非线性网络中的推广需要更多工作
- 仅考虑了平稳数据分布,未处理非平稳环境(如持续学习/灾难性遗忘场景)
- 实验规模有限(玩具高斯数据 + MNIST + 简单两层网络),缺乏在大规模深度网络上的验证
- 未直接与神经科学实验数据对比
相关工作与启发¶
- vs Kunin et al. [25]:他们研究了扩展隐层的两层自编码器中 SGD+weight decay 的漂移;本文扩展到多种架构和监督学习,并突出任务无关刺激的角色
- vs Qin et al. [9]:他们用突触噪声驱动漂移(加性高斯噪声模型);本文表明学习噪声本身就够,且给出不同的几何预测
- 对深度学习的启示:SGD 在收敛后继续产生的"漂移"可能受训练数据中无关维度影响,这对理解过参数化网络的隐式正则化和参数空间探索有意义
评分¶
- 新颖性: ⭐⭐⭐⭐ 将任务无关刺激与表示漂移系统关联,乘性噪声结构的洞见很优雅
- 实验充分度: ⭐⭐⭐ 理论为主,实验验证在简单模型上,缺乏大规模实验
- 写作质量: ⭐⭐⭐⭐⭐ 从直观例子到理论推导再到对比分析,层层推进,很清晰
- 价值: ⭐⭐⭐⭐ 对神经科学和深度学习理论均有启发,提供了可实验验证的预测