跳转至

Recurrent Memory for Online Interdomain Gaussian Processes

会议: NeurIPS 2025
arXiv: 2502.08736
代码: GitHub
领域: 高斯过程 / 在线学习
关键词: 高斯过程, HiPPO, 在线学习, 长期记忆, 状态空间模型

一句话总结

提出 OHSVGP(Online HiPPO Sparse Variational Gaussian Process),将深度学习中的 HiPPO(高阶多项式投影算子)框架引入稀疏变分高斯过程中作为跨域诱导变量,利用时变正交多项式基函数实现在线学习中的长期记忆保持,核矩阵可通过 ODE 递推高效更新。

研究背景与动机

领域现状:高斯过程(GP)因其函数表达能力和不确定性量化能力,是时间序列建模的经典选择。但 GP 面临 \(O(n^3)\) 计算和 \(O(n^2)\) 存储的复杂度瓶颈。稀疏变分高斯过程(SVGP)通过引入诱导点降低复杂度,OSVGP 进一步使其支持在线学习。

核心痛点:OSVGP 在在线学习中存在灾难性遗忘问题。随着新数据到来,诱导点会不可避免地漂移到最新任务的数据区域,导致早期任务的记忆丧失。除非不断增加诱导点数量,否则无法维持长期记忆。

本文切入角度:HiPPO 框架在深度学习中因其出色的长程记忆能力(S4、Mamba 的基础)而闻名。本文将 HiPPO 的时变正交多项式投影解释为跨域 GP 的诱导变量,以此在固定数量的诱导变量下实现长期记忆的有效保持。

方法详解

整体框架

OHSVGP 的核心思路: 1. 将 HiPPO 的多项式投影系数解释为跨域稀疏变分 GP 的诱导变量 2. 利用 HiPPO 的 ODE 递推更新核矩阵,避免重新计算 3. 结合在线变分推断框架,在新数据到达时高效更新后验

关键设计

  1. HiPPO 作为跨域诱导变量(Section 3.1):在标准跨域 GP 中,诱导变量定义为 \(u_m = \int f(x) \phi_m(x) dx\),其中 \(\phi_m\) 是基函数。OHSVGP 使用 HiPPO 的时变基函数 \(\phi_m^{(t)}(x) = g_m^{(t)}(x) \omega^{(t)}(x)\),其中 \(g_m^{(t)}\) 是时变正交多项式(如 Legendre 多项式),\(\omega^{(t)}\) 是时变度量函数。

    • 设计动机:传统跨域 GP 使用固定度量的基函数(如固定区间的均匀度量),新任务的时间索引可能超出预定义范围。HiPPO 的自适应基函数随时间扩展,自然覆盖新到达的数据区域。
    • 诱导变量 \(u_m^{(t)} = \int f(x) \phi_m^{(t)}(x) dx\) 不再是固定随机变量,而是随时间演化的随机过程。
  2. 核矩阵的 ODE 递推更新(Section 3.2):核矩阵可以通过 HiPPO 的 ODE 参数高效更新:

    • 先验交叉协方差:\(\frac{d}{dt}[\mathbf{K}_{\mathbf{fu}}^{(t)}]_{n,:} = \mathbf{A}(t)[\mathbf{K}_{\mathbf{fu}}^{(t)}]_{n,:} + \mathbf{B}(t)k(x_n, t)\)
    • 诱导变量协方差 \(\mathbf{K}_{\mathbf{uu}}^{(t)}\) 涉及双重积分,利用 Bochner 定理和随机傅里叶特征(RFF)分解为两个单积分的乘积之和,每个单积分都可以通过 HiPPO ODE 递推更新。使用 1000 个 RFF 样本近似。
    • 设计动机:避免每次新数据到来时重新计算核矩阵,计算量从 \(O(NM^2)\) 降低到增量更新。
  3. 多维输入扩展(Section 3.3):对于非时间序列数据(如 UCI 数据集的持续学习),需要对训练样本排序以创建伪时间顺序。提出两种排序策略:

    • OHSVGP-o:使用与任务划分一致的oracle排序
    • OHSVGP-k:基于核相似度的启发式排序,\(\mathbf{x}_i^{(j)} = \arg\max k(\mathbf{x}, \mathbf{x}_{i-1}^{(j)})\)

训练策略

  • 使用在线 ELBO(Eq. 3)进行变分更新,前一任务的后验作为下一任务的先验
  • 核超参数仅在初始任务中训练,之后固定(避免在线更新时的不稳定性)
  • 对于共轭高斯似然,后验有闭式解(OHSGPR),完全不需要训练迭代

实验关键数据

主实验1:时间序列预测(NLPD↓)

数据集 方法 M=50 (任务10后) M=150 (任务10后)
Solar OSGPR ~2.5(灾难性遗忘) ~1.8
Solar OVC ~1.2 ~0.9
Solar OVFF ~1.0 ~0.8
Solar OHSGPR ~0.8 ~0.7
Audio OSGPR 严重遗忘 中度遗忘
Audio OHSGPR 最优 最优

OSGPR 从约第5个任务开始出现灾难性遗忘,OHSGPR 在整个学习过程中保持一致性能。

主实验2:运行时间比较(秒)

方法 Solar M=50 Solar M=150 Audio M=100 Audio M=200
OSGPR 140 149 144 199
OVC 0.450 0.620 0.558 0.863
OVFF 0.327 0.354 0.295 0.356
OHSGPR 0.297 0.394 0.392 0.655

OHSGPR 比 OSGPR 快 300-450倍,因为不需要优化诱导点位置。

消融实验:持续学习排序策略影响

数据集(排序方式) OSVGP OVC OHSVGP-k OHSVGP-o
Skillcraft(1st dim) 最差 中等 类似OSVGP 最优
Skillcraft(L2) 最差 中等 类似OSVGP 最优
Powerplant(1st dim) 遗忘 遗忘 中等 最优
Powerplant(L2) 遗忘 中等 中等 最优

关键发现

  • OHSVGP-o(使用oracle排序)在所有场景下都是最优的,说明排序策略对多维输入至关重要
  • OVFF 在早期任务中严重欠拟合,因为其诱导变量在预定义的全时间区间上积分,早期信息被稀释
  • 即使使用非共轭似然(如 COVID 数据的负二项分布),OHSVGP 仍优于基线
  • OVC-optZ(进一步优化诱导点)在后期反而性能下降,说明在线ELBO目标无法保证诱导点的最优在线更新

亮点与洞察

  • 将 HiPPO 从 RNN/SSM 领域引入 GP 领域是非常自然且优雅的跨领域迁移
  • 核矩阵的 ODE 递推更新避免了重新计算,使 OHSGPR 在共轭情形下完全无需训练
  • 有限基重建(\(f = \sum_{m=1}^M u_m^{(t)} g_m^{(t)}(x)\))作为副产品提供了可解释的函数近似
  • 与 SVGP 中其他近似推断框架(EP、Laplace)兼容,只改变核矩阵计算方式

局限与展望

  • RFF 近似 \(\mathbf{K}_{\mathbf{uu}}^{(t)}\) 可能在长时间序列上累积误差
  • 多维输入需要排序,排序策略对性能影响大,OHSVGP-k 在某些场景下不优于 OSVGP
  • 核超参数固定在初始任务后,无法适应分布变化
  • 尚未在超大规模时间序列或高维输出(如视频生成)上充分验证

相关工作与启发

  • 与 Markovian GP(也有递推结构)不同,OHSVGP 专为在线学习设计
  • VFF(Variational Fourier Features)需要预定义时间区间,不适合在线场景
  • 可将此方法与更先进的 SSM 变体(如 Mamba 的选择性机制)结合
  • GP-VAE 的持续学习实验(ERA5 气候数据)展示了在深度生成模型中的潜力

评分

  • 新颖性: ⭐⭐⭐⭐ HiPPO→GP 的跨领域迁移新颖,但本质上是已知方法的组合
  • 实验充分度: ⭐⭐⭐⭐ 涵盖时间序列、持续学习、GP-VAE 三类任务,基线完整
  • 写作质量: ⭐⭐⭐⭐ 数学推导清楚,图示直观,但跨域 GP 背景知识要求较高
  • 价值: ⭐⭐⭐⭐ 解决了在线 GP 的核心痛点(灾难性遗忘),具有较好的实用价值

相关论文