Recurrent Memory for Online Interdomain Gaussian Processes¶

会议: NeurIPS 2025
arXiv: 2502.08736
代码: GitHub
领域: 高斯过程 / 在线学习
关键词: 高斯过程, HiPPO, 在线学习, 长期记忆, 状态空间模型

一句话总结¶

提出 OHSVGP（Online HiPPO Sparse Variational Gaussian Process），将深度学习中的 HiPPO（高阶多项式投影算子）框架引入稀疏变分高斯过程中作为跨域诱导变量，利用时变正交多项式基函数实现在线学习中的长期记忆保持，核矩阵可通过 ODE 递推高效更新。

研究背景与动机¶

领域现状：高斯过程（GP）因其函数表达能力和不确定性量化能力，是时间序列建模的经典选择。但 GP 面临 \(O(n^3)\) 计算和 \(O(n^2)\) 存储的复杂度瓶颈。稀疏变分高斯过程（SVGP）通过引入诱导点降低复杂度，OSVGP 进一步使其支持在线学习。

核心痛点：OSVGP 在在线学习中存在灾难性遗忘问题。随着新数据到来，诱导点会不可避免地漂移到最新任务的数据区域，导致早期任务的记忆丧失。除非不断增加诱导点数量，否则无法维持长期记忆。

本文切入角度：HiPPO 框架在深度学习中因其出色的长程记忆能力（S4、Mamba 的基础）而闻名。本文将 HiPPO 的时变正交多项式投影解释为跨域 GP 的诱导变量，以此在固定数量的诱导变量下实现长期记忆的有效保持。

方法详解¶

整体框架¶

OHSVGP 的核心思路： 1. 将 HiPPO 的多项式投影系数解释为跨域稀疏变分 GP 的诱导变量 2. 利用 HiPPO 的 ODE 递推更新核矩阵，避免重新计算 3. 结合在线变分推断框架，在新数据到达时高效更新后验

关键设计¶

HiPPO 作为跨域诱导变量（Section 3.1）：在标准跨域 GP 中，诱导变量定义为 \(u_m = \int f(x) \phi_m(x) dx\)，其中 \(\phi_m\) 是基函数。OHSVGP 使用 HiPPO 的时变基函数 \(\phi_m^{(t)}(x) = g_m^{(t)}(x) \omega^{(t)}(x)\)，其中 \(g_m^{(t)}\) 是时变正交多项式（如 Legendre 多项式），\(\omega^{(t)}\) 是时变度量函数。
- 设计动机：传统跨域 GP 使用固定度量的基函数（如固定区间的均匀度量），新任务的时间索引可能超出预定义范围。HiPPO 的自适应基函数随时间扩展，自然覆盖新到达的数据区域。
- 诱导变量 \(u_m^{(t)} = \int f(x) \phi_m^{(t)}(x) dx\) 不再是固定随机变量，而是随时间演化的随机过程。
核矩阵的 ODE 递推更新（Section 3.2）：核矩阵可以通过 HiPPO 的 ODE 参数高效更新：
- 先验交叉协方差：\(\frac{d}{dt}[\mathbf{K}_{\mathbf{fu}}^{(t)}]_{n,:} = \mathbf{A}(t)[\mathbf{K}_{\mathbf{fu}}^{(t)}]_{n,:} + \mathbf{B}(t)k(x_n, t)\)
- 诱导变量协方差 \(\mathbf{K}_{\mathbf{uu}}^{(t)}\) 涉及双重积分，利用 Bochner 定理和随机傅里叶特征（RFF）分解为两个单积分的乘积之和，每个单积分都可以通过 HiPPO ODE 递推更新。使用 1000 个 RFF 样本近似。
- 设计动机：避免每次新数据到来时重新计算核矩阵，计算量从 \(O(NM^2)\) 降低到增量更新。
多维输入扩展（Section 3.3）：对于非时间序列数据（如 UCI 数据集的持续学习），需要对训练样本排序以创建伪时间顺序。提出两种排序策略：
- OHSVGP-o：使用与任务划分一致的oracle排序
- OHSVGP-k：基于核相似度的启发式排序，\(\mathbf{x}_i^{(j)} = \arg\max k(\mathbf{x}, \mathbf{x}_{i-1}^{(j)})\)

训练策略¶

使用在线 ELBO（Eq. 3）进行变分更新，前一任务的后验作为下一任务的先验
核超参数仅在初始任务中训练，之后固定（避免在线更新时的不稳定性）
对于共轭高斯似然，后验有闭式解（OHSGPR），完全不需要训练迭代

实验关键数据¶

主实验1：时间序列预测（NLPD↓）¶

数据集	方法	M=50 (任务10后)	M=150 (任务10后)
Solar	OSGPR	~2.5（灾难性遗忘）	~1.8
Solar	OVC	~1.2	~0.9
Solar	OVFF	~1.0	~0.8
Solar	OHSGPR	~0.8	~0.7
Audio	OSGPR	严重遗忘	中度遗忘
Audio	OHSGPR	最优	最优

OSGPR 从约第5个任务开始出现灾难性遗忘，OHSGPR 在整个学习过程中保持一致性能。

主实验2：运行时间比较（秒）¶

方法	Solar M=50	Solar M=150	Audio M=100	Audio M=200
OSGPR	140	149	144	199
OVC	0.450	0.620	0.558	0.863
OVFF	0.327	0.354	0.295	0.356
OHSGPR	0.297	0.394	0.392	0.655

OHSGPR 比 OSGPR 快 300-450倍，因为不需要优化诱导点位置。

消融实验：持续学习排序策略影响¶

数据集(排序方式)	OSVGP	OVC	OHSVGP-k	OHSVGP-o
Skillcraft(1st dim)	最差	中等	类似OSVGP	最优
Skillcraft(L2)	最差	中等	类似OSVGP	最优
Powerplant(1st dim)	遗忘	遗忘	中等	最优
Powerplant(L2)	遗忘	中等	中等	最优

关键发现¶

OHSVGP-o（使用oracle排序）在所有场景下都是最优的，说明排序策略对多维输入至关重要
OVFF 在早期任务中严重欠拟合，因为其诱导变量在预定义的全时间区间上积分，早期信息被稀释
即使使用非共轭似然（如 COVID 数据的负二项分布），OHSVGP 仍优于基线
OVC-optZ（进一步优化诱导点）在后期反而性能下降，说明在线ELBO目标无法保证诱导点的最优在线更新

亮点与洞察¶

将 HiPPO 从 RNN/SSM 领域引入 GP 领域是非常自然且优雅的跨领域迁移
核矩阵的 ODE 递推更新避免了重新计算，使 OHSGPR 在共轭情形下完全无需训练
有限基重建（\(f = \sum_{m=1}^M u_m^{(t)} g_m^{(t)}(x)\)）作为副产品提供了可解释的函数近似
与 SVGP 中其他近似推断框架（EP、Laplace）兼容，只改变核矩阵计算方式

局限与展望¶

RFF 近似 \(\mathbf{K}_{\mathbf{uu}}^{(t)}\) 可能在长时间序列上累积误差
多维输入需要排序，排序策略对性能影响大，OHSVGP-k 在某些场景下不优于 OSVGP
核超参数固定在初始任务后，无法适应分布变化
尚未在超大规模时间序列或高维输出（如视频生成）上充分验证

评分¶

新颖性: ⭐⭐⭐⭐ HiPPO→GP 的跨领域迁移新颖，但本质上是已知方法的组合
实验充分度: ⭐⭐⭐⭐ 涵盖时间序列、持续学习、GP-VAE 三类任务，基线完整
写作质量: ⭐⭐⭐⭐ 数学推导清楚，图示直观，但跨域 GP 背景知识要求较高
价值: ⭐⭐⭐⭐ 解决了在线 GP 的核心痛点（灾难性遗忘），具有较好的实用价值