Predicting the Future by Retrieving the Past¶

会议: AAAI 2026
arXiv: 2511.05859
代码: github.com/ddz16/PFRP
领域: 时间序列
关键词: 检索增强预测, 全局记忆库, 对比学习, 单变量时间序列, 即插即用

一句话总结¶

提出 PFRP（Predicting the Future by Retrieving the Past），构建全局记忆库(GMB)存储历史模式，通过预测性对比学习训练编码器实现高效检索，将检索到的全局预测与任意局部预测模型动态融合，在 7 个数据集上平均提升 8.4% 的预测性能。

研究背景与动机¶

当前深度学习时间序列预测模型（MLP、Transformer、TCN等）基于滑动窗口训练后，会将历史信息隐式压缩到模型参数中。训练完成后原始训练数据被丢弃，推理时模型只能利用当前 lookback window 内的局部上下文，无法显式访问全局历史知识。

关键观察：时间序列常包含跨周期高度相似的子序列。例如，家庭用电数据中 2019 年某周的消费模式与 2018 年的某周极为相似——都呈现日周期波动，且前3天峰值递减、后4天高位稳定。这意味着如果当前 lookback window 与历史某段相似，其未来走势也很可能类似。

核心动机： 1. 现有模型属于"局部预测模型"——只看当前窗口，浪费了丰富的全局历史模式 2. RAG（检索增强生成）在 NLP 中已证明有效，但现有时间序列 RAG 方法（RATD、TimeRAF、TimeRAG）要么依赖扩散模型/LLM导致效率低下，要么需要遍历整个训练集导致检索缓慢 3. 需要一种高效、模型无关的检索增强预测框架

方法详解¶

整体框架¶

PFRP 分两个阶段： - 阶段1 — 构建全局记忆库(GMB)：训练对比学习编码器 → 编码所有历史样本的 lookback window → K-medoids 聚类降冗余 → 存储 $K$ 个代表性(特征, 预测序列)对 - 阶段2 — 检索增强预测：编码当前 lookback window → 从 GMB 检索 top-k 相似历史 → 置信门+输出门调制 → 与局部预测模型动态融合

关键设计¶

预测性对比学习(PCL)：训练 lookback window 编码器时，正样本的选择方式是关键创新。不同于传统对比学习按 lookback 序列的 MSE 选正样本，PCL 按 prediction horizon 序列的 MSE 选正样本：

$$i^+ = \arg\min_{1 \leq j \leq B, j \neq i} \|y_i - y_j\|_2^2$$

然后用 InfoNCE 损失拉近正样本对在特征空间的距离：

$$\mathcal{L}_{pcl} = -\frac{1}{B}\sum_{i=1}^{B} \log \frac{\exp(\epsilon^{(i)} \cdot \epsilon^{(i^+)}/\tau)}{\sum_{j=1}^{B} \exp(\epsilon^{(i)} \cdot \epsilon^{(j)}/\tau)}$$

设计动机：我们关心的不是"哪些过去看起来相似"，而是"哪些过去有相似的未来"。按未来走势选正样本使编码器学到的特征更直接服务于检索目的——找到未来最可能相似的历史段。此外，为避免时间重叠样本成为伪正样本，排除了与锚样本时间重叠>48步的样本。

K-medoids 聚类构建 GMB：编码所有训练样本后，在特征空间做 K-medoids 聚类，仅保留 $K$ 个聚类中心点作为记忆单元 $\{(\epsilon^{(i)}, y^{(i)})\}_{i=1}^{K}$。

设计动机： - 去冗余：避免存储重复相似的历史样本，提升检索效率 - K-medoids 而非 K-means：K-medoids 使用真实历史样本而非合成平均作为聚类中心，保证记忆库中的模式是真实、连贯的历史序列 - GMB 按最长预测长度 720 构建，短预测只取前几步即可，无需为不同预测长度重建

置信门 + 输出门 + 动态融合：检索到 top-k 最相似历史后，经过三重调制生成最终预测：

置信门(Confidence Gate)：判断检索结果与当前窗口拼接后是否构成合理序列： $$p_i = \text{Sigmoid}(\text{MLP}([x; y^{(a_i)}]))$$ 用此概率调制原始相似度权重，确保"看起来相似但未来不匹配"的历史被降权。

输出门(Output Gate)：对加权融合后的全局预测 $\bar{y}_1$ 做仿射变换以适应当前的 scale 和 shift： $$y_1 = \alpha \cdot \bar{y}_1 + \beta$$ 其中 $\alpha, \beta \in \mathbb{R}^H$ 由 MLP 从当前 lookback window 生成，$\alpha$ 初始化为全1，$\beta$ 初始化为全0。

动态融合：根据检索的相似度权重动态决定全局预测 $y_1$ 和局部预测 $y_2$ 的权重： $$y = w_1 \cdot y_1 + w_2 \cdot y_2, \quad w_1, w_2 = \text{Softmax}(\text{MLP}(\bar{w}^{(a_1)}, \ldots, \bar{w}^{(a_k)}))$$

设计动机：当历史中无高度相似序列时，调制权重偏小，融合自动倾向局部模型；周期性强的数据中调制权重偏大，全局预测占主导。

损失函数 / 训练策略¶

阶段1（PCL训练）：batch size 256，温度 $\tau=0.05$，学习率 0.001，排除时间重叠>48的样本
阶段2（PFRP训练）：Adam 优化器，L2 损失，初始学习率 0.0001，遵循各基线模型的官方超参数
公平比较：无论是否使用 PFRP，基线模型的超参数和训练配置保持不变
lookback window $L=96$，预测长度 $H \in \{96, 192, 336, 720\}$

实验关键数据¶

主实验¶

7 个数据集的单变量预测（取最后一个变量），所有预测长度平均结果：

基线模型	原始 MSE	+PFRP MSE	提升
SparseTSF	0.2404 (Traffic)	0.1919	20.2%
DLinear	0.2778 (Traffic)	0.1793	35.5%
PatchTST	0.1797 (Traffic)	0.1712	4.7%
TimesNet	0.2165 (Traffic)	0.1799	16.9%
SparseTSF	0.0841 (ETTh1)	0.0766	8.9%
DLinear	0.3951 (Electricity)	0.3666	7.2%

跨7个数据集的平均提升：SparseTSF +8.4%，DLinear +7.1%，PatchTST 和 TimesNet 提升略小但一致。周期性强的数据集（Traffic +17.4%, Electricity +10.1%）提升最大。

消融实验¶

配置	Traffic MSE	Electricity MSE	说明
SparseTSF (基线)	0.2404	0.4968	无PFRP
+PFRP 完整	0.1919	0.3561	所有模块
w/o confidence gate	0.2385	0.3960	置信门的贡献
w/o output gate	0.2130	0.5140	输出门的贡献
w/o both gates	0.2128	0.5763	两个门都去掉
w/o prediction model	0.1686	0.3952	仅全局预测

GMB 相关消融：

维度	最优选择	对比	说明
检索准则	Feature cosine (本文)	MSE/DTW/PCC	特征级相似度优于原始序列级
编码器类型	MLP (默认)	PatchTST/TimesNet	各有优劣，MLP 效率最高
训练策略	PCL (本文)	CL/PL	按未来相似度选正样本效果最好

关键发现¶

周期性越强收益越大：Traffic/Electricity 数据集周期性分别为 0.32/0.19，全局预测权重 $w_1$ 更高，收益最显著
仅全局预测也能超越基线：在 Traffic 上 w/o prediction model 的 MSE(0.1686)甚至优于完整 PFRP(0.1919)，说明强周期数据中历史检索本身就足够有效
简单模型收益更大：DLinear/SparseTSF 等 MLP 模型的提升大于更复杂的 PatchTST/TimesNet
可增强大模型：冻结 TimeCMA/Moirai/Sundial 预训练参数，仅微调 PFRP 参数也能提升性能
效率开销极小：GMB 构建一次性耗时 186 秒（PCL 134s + 聚类 52s），模型大小仅增加 1.57MB

亮点与洞察¶

模型无关的即插即用架构：PFRP 可无缝集成到任何单变量预测模型中，无需修改基线模型的超参数
PCL 正样本选择策略新颖：按未来走势而非历史形态选正样本，让编码器学到的特征空间更匹配检索目标
动态融合自适应周期性：全局预测权重与数据周期性成正比，自动在"检索驱动"和"模型驱动"之间切换
可解释性：检索到的历史序列直观展示了"为什么模型做出这个预测"，提供了局部可解释能力

局限与展望¶

仅限单变量：PFRP 目前只处理单变量时间序列，扩展到多变量需要重新设计检索和融合机制
超参数 $K$ 和 $k$ 需调优：GMB 大小 $K$ 和检索数 $k$ 在不同数据集上最优值差异较大（$K$ 从 1000 到 4000，$k$ 从 10 到 200）
弱周期数据收益有限：ETT 数据集（周期性<0.13）的平均提升仅 2~3%
GMB 静态不更新：训练集构建完成后 GMB 固定不变，无法适应数据分布漂移

评分¶

新颖性: ⭐⭐⭐⭐ — PCL + GMB + 动态融合的组合在时间序列RAG中有独特价值
实验充分度: ⭐⭐⭐⭐⭐ — 7 数据集×4 基线，全面的 GMB/PFRP 消融，超参数敏感性，大模型增强实验
写作质量: ⭐⭐⭐⭐ — 图示清晰，方法描述完整，对比分析到位
价值: ⭐⭐⭐⭐ — 即插即用、开销小、效果稳定；但单变量限制了实用范围