ReCast: Reliability-aware Codebook Assisted Lightweight Time Series Forecasting¶
会议: AAAI 2026
arXiv: 2511.11991
代码: 无
领域: 时间序列
关键词: 码本量化, 轻量级预测, 双路径架构, 可靠性感知更新, 分布鲁棒优化
一句话总结¶
提出 ReCast,通过 patch 级向量量化将时间序列编码为离散嵌入,设计量化路径(预测规律结构)和残差路径(捕获不规则波动)的双路径架构,并引入基于分布鲁棒优化(DRO)的可靠性感知码本更新策略,在 8 个数据集上以轻量架构实现 SOTA 精度。
研究背景与动机¶
时间序列预测的主流方法通常采用全局分解策略——将序列分解为趋势、季节、残差三个组分独立建模。然而:
全局分解的局限性:现实世界时间序列常由复杂、动态的局部模式主导,而非清晰的全局规律。全局分解在面对噪声大、非周期性数据时表现不佳。
模型复杂度问题:复杂的 Transformer/CNN 模型计算开销大,限制了在实时系统和资源受限环境中的应用。
局部模式复现性:许多真实序列展现出"局部形状复现"的特征(如每日用电曲线形态相似但细节不同),这启发了用离散码本捕获这些复现模式的想法。
核心动机:能否用向量量化(VQ)将局部模式编码为有限的码字集合,通过码字建模实现轻量预测?关键挑战在于静态码本无法适应非平稳数据,而更新码本时如何处理噪声和分布漂移?
方法详解¶
整体框架¶
ReCast 包含三大模块: 1. Patch-wise 量化:归一化 → 分 patch → 下采样 → 码本最近邻匹配 → 离散嵌入 2. 双路径预测:量化路径(MLP预测未来码字索引)+ 残差路径(MLP预测量化残差) 3. 码本构建与更新:聚类生成伪码本 → 可靠性感知评分 → DRO 融合 → 增量更新
关键设计¶
- Patch-wise 向量量化与下采样:输入序列 \(\mathbf{X} \in \mathbb{R}^{C \times L}\) 先经实例归一化,然后分割为 \(N = \lceil L/L_p \rceil\) 个 patch \(\mathbf{p}_i \in \mathbb{R}^{L_p}\)。每个 patch 下采样到 \(L_p/2\) 维后与可学习码本 \(\mathbf{S} = \{\mathbf{s}_k\}_{k=1}^K\) 做最近邻匹配:
$\(q_i = \arg\min_{\mathbf{s}_k \in \mathbf{S}} \|\tilde{\mathbf{p}}_i - \mathbf{s}_k\|_2^2\)$
设计动机: - 下采样:基于"局部模式跨尺度不变性"假设,低分辨率保留显著结构、抑制冗余波动,同时大幅减少码本匹配和存储计算量 - 共享码本:所有变量共用一个码本,隐式促进跨变量交互,避免了通道独立架构的性能瓶颈 - 随机 patch 采样:训练和码本更新时仅使用随机采样的 patch 子集,降低过拟合风险
- 双路径预测架构:
量化路径:用轻量 MLP \(\mathcal{M}_{\text{quant}}\) 预测未来 patch 的离散索引 \(\mathbf{Q}_y = \mathcal{M}_{\text{quant}}(\mathbf{Q}_x)\),再通过码本查找+上采样重建未来序列 \(\mathbf{Y}_q\)。
残差路径:量化不可避免地丢失细节。将输入 \(\mathbf{X}\) 与其量化重建 \(\mathbf{X}_q = \text{Rec}(\mathbf{Q}_x|\mathbf{S})\) 做差得到残差 \(\mathbf{X}_r = \mathbf{X} - \mathbf{X}_q\),用另一个 MLP \(\mathcal{M}_{\text{res}}\) 预测未来残差 \(\mathbf{Y}_r\)。
最终预测:\(\hat{\mathbf{Y}} = \sigma_{in}(\mathbf{Y}_q + \mathbf{Y}_r) + \mu_{in}\)(加实例反归一化)
设计动机:量化路径专注于高效建模稳定、复现的局部模式(如典型日电力曲线),残差路径负责恢复被量化丢弃的不规则波动(如突发用电尖峰)。两路径协同实现了轻量设计与预测精度的最优平衡。
- 可靠性感知码本更新:每个 epoch 通过聚类生成伪码本 \(\hat{\mathbf{S}}^t\),然后增量更新实际码本:
$\(\mathbf{S}^t = \mathbf{S}^{t-1} + \frac{1}{t}(\hat{\mathbf{W}}^t \hat{\mathbf{S}}^t - \mathbf{S}^{t-1})\)$
核心在于更新权重 \(\hat{\mathbf{W}}^t\) 的计算,融合三个互补的可靠性因子:
- 表示质量 \(w_{rep}\):评估伪码字对其所属 patch 的重建精度,质量高则权重大
- 历史一致性 \(w_\Delta\):衡量伪码字与上一 epoch 码字的偏移,偏移大说明旧码本不足以拟合新数据,应给更大更新权重
- OOD 敏感性 \(w_{je}\):基于联合能量函数检测低频分配的码字,防止嵌入空间坍缩到少数固定码字
三个因子通过 分布鲁棒优化(DRO) 融合——在均匀分布附近的 KL 邻域内求最坏情况期望,有闭式解:
$\(\hat{w}_k^t = -\gamma \cdot \log \sum_{i=1}^{3} \exp(-z_{k,i}^t / \gamma)\)$
这是一种 soft-minimum 操作,让最可靠的因子主导,同时软惩罚其他因子。
设计动机:三个因子各有侧重且在不同数据条件下可靠性不同。固定权重融合容易在某些因子噪声大时失效。DRO 提供了一种保守但鲁棒的融合方案——在最坏情况下也能给出合理的可靠性估计。
此外,嵌入正则化损失防止码字坍缩:\(\mathcal{L}_{sep} = \log \sum_{i,j} \exp(-\|\hat{\mathbf{s}}_i^t - \hat{\mathbf{s}}_j^t\|_2^2 / \tau)\)
损失函数 / 训练策略¶
- \(\mathcal{L}_{pre} = \|\hat{\mathbf{Y}} - \mathbf{Y}\|_1\)(L1损失,对异常值更鲁棒)
- 推理时码本固定,仅需计算式(5)即可高效预测
- 实现:PyTorch,Nvidia L40 GPU (48GB)
实验关键数据¶
主实验¶
在 8 个数据集上与 7 个 SOTA 模型比较,4 个预测长度 \(H \in \{96, 192, 336, 720\}\) 的平均结果:
| 模型 | ETTm1 MSE | ETTh1 MSE | ECL MSE | Traffic MSE | Weather MSE | 1st Count |
|---|---|---|---|---|---|---|
| ReCast | 0.371 | 0.437 | 0.163 | 0.418 | 0.229 | 12/16 |
| PatchMLP | 0.374 | 0.438 | 0.171 | 0.417 | 0.231 | 2 |
| TQNet | 0.377 | 0.441 | 0.164 | 0.445 | 0.242 | 2 |
| CycleNet | 0.379 | 0.457 | 0.168 | 0.472 | 0.243 | 0 |
| iTransformer | 0.407 | 0.454 | 0.178 | 0.428 | 0.258 | 0 |
| PatchTST | 0.387 | 0.469 | 0.216 | 0.555 | 0.259 | 0 |
| DLinear | 0.403 | 0.456 | 0.212 | 0.625 | 0.265 | 0 |
ReCast 在 16 个 MSE/MAE 指标中取得 12 个最优。
消融实验¶
| 配置 | ETTm1 MSE | Traffic MSE | Weather MSE | 说明 |
|---|---|---|---|---|
| ReCast (完整) | 0.371 | 0.418 | 0.229 | 全部模块 |
| -Residual | 0.377 | 0.435 | 0.248 | 去残差路径,量化损失无法补偿 |
| -Updating | 0.400 | 0.553 | 0.257 | 冻结码本,下降最大 |
| -Random | 0.377 | 0.427 | 0.240 | 去下采样和随机采样 |
| -Scoring | 0.385 | 0.441 | 0.249 | 去可靠性感知权重 |
| -DRO | 0.375 | 0.424 | 0.237 | 均匀权重替代 DRO 融合 |
可迁移性实验:
| 基线 | 原始 MSE | +ReCast MSE | 数据集 |
|---|---|---|---|
| iTransformer | 0.407 | 0.375 | ETTm1 |
| TimesNet | 0.620 | 0.499 | Traffic |
| iTransformer | 0.258 | 0.231 | Weather |
关键发现¶
- 码本更新是性能核心:-Updating 变体在 Traffic 上 MSE 从 0.418 升至 0.553(+32%),说明静态码本完全无法适应数据分布变化
- 双路径互补必不可少:-Residual 一致下降,验证了量化不可避免地丢失信息,残差补偿至关重要
- DRO 优于简单融合:-DRO 与 -Scoring 的差距表明,自适应权重分配比均匀或等权重更好
- 架构可迁移:将 ReCast 的码本+双路径框架应用到 iTransformer 和 TimesNet 上均获提升,验证了框架的通用性
- 效率优势显著:参数量和训练速度均位于最优梯队前列
亮点与洞察¶
- 局部模式视角的范式创新:不做全局趋势/季节分解,而是用离散码本捕获复现的局部形状——这对"无明显全局规律但有局部模式"的数据特别有效
- DRO 在码本更新中的巧妙应用:将"如何融合多个可靠性指标"形式化为 DRO 问题并求得闭式解,理论优美且计算高效
- 量化-残差的分工设计:类比图像编码中的有损压缩+残差编码,但在时间序列预测中是首次系统应用
- 共享码本实现隐式跨变量交互:避免了通道独立的局限,也无需显式建模跨变量依赖
局限与展望¶
- 超参数敏感:码字数 \(K\) 和 patch 长度 \(L_p\) 对性能影响大且需经验调优,缺乏自适应或理论指导
- 码本容量固定:\(K\) 在训练前确定,无法根据数据复杂度动态扩展
- 量化路径预测离散索引:本质上是分类任务而非回归,误分类可能导致严重预测偏差
- 可能的方向:将 ReCast 扩展为预训练大模型,使用更丰富的码本、多种 patch 配置和异构时间序列进行预训练
相关工作与启发¶
- VQ-VAE 系列:向量量化最早成功应用于图像和语音生成,本文将其引入时间序列预测并解决了动态更新问题
- HDT (AAAI 2025):也用层次化离散 Transformer 做时间序列预测,但 ReCast 的双路径+可靠性更新更轻量、更鲁棒
- PatchTST/PatchMLP:patch 化策略在时间序列中广泛使用,但本文在 patch 基础上加入了量化和离散嵌入
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 码本量化+双路径+DRO可靠性更新的组合设计极具创新性
- 实验充分度: ⭐⭐⭐⭐ — 8 数据集、全面消融和可迁移性验证,但缺少在线/流式场景的评估
- 写作质量: ⭐⭐⭐⭐ — 方法描述清晰,公式推导完整,图示直观
- 价值: ⭐⭐⭐⭐⭐ — 轻量、高精度、可迁移,实用价值很高
相关论文¶
- [ICML 2025] LightGTS: A Lightweight General Time Series Forecasting Model
- [AAAI 2026] A Unified Shape-Aware Foundation Model for Time Series Classification
- [NeurIPS 2025] SEMPO: Lightweight Foundation Models for Time Series Forecasting
- [AAAI 2026] Task-Aware Retrieval Augmentation for Dynamic Recommendation
- [AAAI 2026] Harmonic Dataset Distillation for Time Series Forecasting