UnHiPPO: Uncertainty-Aware Initialization for State Space Models¶

会议: ICML 2025
arXiv: 2506.05065
代码: https://cs.cit.tum.de/daml/unhippo
领域: 序列模型 / 状态空间模型
关键词: state space models, HiPPO, initialization, uncertainty, Kalman filter, noise robustness

一句话总结¶

本文扩展了 HiPPO 理论以处理带噪声的测量数据，将 SSM 的初始化问题重新表述为线性随机控制问题，推导出不确定性感知的动力学初始化方案，在不增加运行时间的前提下显著提升 SSM 的噪声鲁棒性。

研究背景与动机¶

领域现状：状态空间模型（SSM）如 S4、Mamba 等正成为序列建模的主导架构。HiPPO（High-order Polynomial Projection Operators）框架为 SSM 提供了优良的初始化方案，是 S4 系列成功的关键。HiPPO 通过在线逼近输入信号的多项式投影来初始化 \(A, B\) 矩阵。

现有痛点：HiPPO 的核心假设是数据无噪声——输入信号被视为确定性控制信号。但实际数据通常包含观测噪声（传感器噪声、量化误差等），噪声会显著影响 SSM 的训练和推理质量。

核心矛盾：HiPPO 产生的初始化在无噪声下最优，但在有噪声场景中，这种初始化会将噪声无差别地传递到状态表示中，降低信号质量。

本文目标：设计一种考虑噪声的 SSM 初始化方案。

切入角度：将 HiPPO 重新解读为线性随机控制/估计问题。

核心idea：数据不是确定性控制信号而是潜在系统的噪声观测，用 Kalman 滤波的思想推导出自动降噪的初始化。

方法详解¶

整体框架¶

输入：序列数据（可能含噪声）、SSM 架构（如 S4, Mamba）输出：不确定性感知的 \(A, B\) 矩阵初始化

Pipeline： 1. 将标准 HiPPO 解读为控制问题：\(\dot{x}(t) = Ax(t) + Bu(t)\)，\(u(t)\) 是无噪声输入 2. 重新表述为估计问题：假设存在潜在信号 \(f(t)\)，观测为 \(u(t) = f(t) + \epsilon(t)\) 3. 推导 Kalman 型的后验估计动力学 4. 将推导出的新 \(A', B'\) 作为 SSM 的初始化

关键设计¶

HiPPO 的随机控制解读:
- 功能：将 HiPPO 从函数逼近问题重铸为状态估计问题
- 核心思路：标准 HiPPO 解决 \(\min_{c(t)} \int_0^t (f(\tau) - \sum_n c_n(t) P_n(\tau))^2 w(\tau) d\tau\)，其中 \(f\) 是输入函数，\(P_n\) 是正交多项式基。本文假设 \(f\) 是隐变量，观测为 \(u = f + \epsilon\)，\(\epsilon \sim \mathcal{N}(0, \sigma^2)\)
- 设计动机：在状态估计框架下，可以自然地分离信号和噪声
不确定性感知的动力学推导:
- 功能：推导出考虑噪声后的修正 \(A, B\) 矩阵
- 核心思路：在线性-高斯假设下，后验分布的均值和协方差通过 Kalman 滤波更新。新的动力学为： \(\dot{x}(t) = (A - K(t)C)x(t) + K(t)u(t)\) 其中 \(K(t)\) 是 Kalman 增益，自动平衡先验信息和新观测。当噪声为零时 \(K \to B\)，退化为标准 HiPPO
- 设计动机：Kalman 增益自动抑制噪声——噪声越大，对新观测的响应越保守
与标准 SSM 的无缝集成:
- 功能：确保修正后的初始化不增加模型复杂度和运行时间
- 核心思路：修正后的 \(A' = A - KC, B' = K\) 仍然是常数矩阵（在稳态 Kalman 增益下），因此 SSM 的架构和计算方式完全不变，只改变了初始值
- 设计动机：确保方法的实用性——不改变模型结构，不增加推理成本

损失函数 / 训练策略¶

初始化方案不改变训练过程。用标准的序列建模损失（如交叉熵、MSE）训练 SSM。关键区别只在 \(A, B\) 的初始化。

实验关键数据¶

主实验¶

任务/数据集	指标	UnHiPPO	标准HiPPO	随机初始化	噪声条件
Long Range Arena (无噪声)	ACC	86.2	86.0	82.1	干净
LRA + 高斯噪声 σ=0.1	ACC	83.5	79.8	75.4	轻度噪声
LRA + 高斯噪声 σ=0.3	ACC	78.2	68.5	63.1	中度噪声
时间序列预测 (ETTh1)	MSE	0.372	0.385	0.412	含噪声
语音识别 (带噪 SC09)	ACC	91.3	86.7	82.5	真实噪声

消融实验¶

配置	LRA ACC (σ=0.2)	说明
UnHiPPO (完整)	80.8	完整方法
标准 HiPPO	74.2	不考虑噪声
HiPPO + 输入降噪	77.5	先去噪再输入
不同噪声估计 σ̂=0.1 (偏低)	79.5	噪声估计影响小
不同噪声估计 σ̂=0.5 (偏高)	79.0	过度平滑但鲁棒
训练中噪声 / 推理无噪声	85.5	训练降噪有益

关键发现¶

在无噪声条件下，UnHiPPO 与标准 HiPPO 性能相当（不会损害干净场景）
噪声越大，UnHiPPO 的优势越明显——σ=0.3 时准确率差距达 10 个点
噪声参数 σ̂ 的估计不需要非常精确，方法对此鲁棒
在真实噪声场景（语音识别）中的提升验证了实际价值

亮点与洞察¶

优雅的理论扩展：将 HiPPO 从确定性逼近推广到随机估计，数学上完备
零成本改善：仅改变初始化值，不增加任何计算开销
Kalman 滤波思想的巧妙应用：利用经典控制理论工具解决现代深度学习问题
在干净数据上不退化：这是替代性初始化方案的重要性质

局限与展望¶

假设噪声为高斯分布，对非高斯噪声的推广需要工作
时变噪声水平的处理（如自适应 Kalman 增益）可以进一步提升
与 Mamba 等选择性 SSM 的结合效果有待深入研究

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将 HiPPO 推广到随机设置的理论贡献显著
实验充分度: ⭐⭐⭐⭐ 多种噪声级别和任务验证
写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰，从控制论视角切入自然
价值: ⭐⭐⭐⭐⭐ 基础性改进，所有基于 HiPPO 的 SSM 都可受益