Selective Learning for Deep Time Series Forecasting¶

会议: NeurIPS 2025
arXiv: 2510.25207
代码: 无
领域: 时间序列预测
关键词: 时间序列预测, selective learning, overfitting, 不确定性, 异常检测

一句话总结¶

提出选择性学习（Selective Learning）策略，通过不确定性掩码和异常掩码组成的双掩码机制筛选可泛化时间步计算 MSE 损失，在 8 个数据集上为 Informer 降低 37.4% MSE、TimesNet 降低 8.4%、iTransformer 降低 6.5%。

领域现状：深度学习在时间序列预测（TSF）中通过捕获复杂时序模式取得显著进展。

现有痛点：深度模型易受时间序列中噪声和异常的影响，导致严重过拟合。主流 DL 范式对所有时间步统一用 MSE 损失优化，无差别地学习不确定和异常时间步。

核心矛盾：模型需要从所有时间步学习→但部分时间步是噪声/异常→强制学习这些时间步导致过拟合。

切入角度：不是所有时间步都值得学习，选择性地屏蔽不可泛化的时间步。

在标准深度 TSF 模型的训练过程中插入选择性学习模块：模型预测→计算残差→通过双掩码机制识别不可泛化时间步→仅对保留时间步计算 MSE 损失→反向传播。

不确定性掩码（Uncertainty Mask）
- 功能：过滤高不确定性的时间步
- 核心思路：利用残差熵（residual entropy）衡量预测的不确定性
- 公式：\(M_u(t) = \mathbb{1}[H(r_t) < \tau_u]\)，其中\(H(r_t)\)为残差的熵估计
- 设计动机：高不确定性时间步可能是噪声，强制拟合会过拟合
异常掩码（Anomaly Mask）
- 功能：排除异常时间步
- 核心思路：通过残差下界估计（residual lower bound estimation）判断异常
- 公式：\(M_a(t) = \mathbb{1}[|r_t| < \text{LB}(r)]\)
- 设计动机：异常值会拉偏梯度方向
双掩码融合
- 最终掩码：\(M(t) = M_u(t) \cdot M_a(t)\)
- 选择性 MSE：\(\mathcal{L} = \frac{1}{|\{t: M(t)=1\}|} \sum_{t: M(t)=1} (y_t - \hat{y}_t)^2\)

基础模型	原始 MSE	+ Selective Learning	改进(%)
Informer	0.847	0.530	37.4%
Autoformer	0.612	0.503	17.8%
FEDformer	0.542	0.476	12.2%
TimesNet	0.414	0.379	8.4%
PatchTST	0.386	0.363	6.0%
iTransformer	0.371	0.347	6.5%

数据集	原始 MSE	+SL MSE	改进(%)
ETTh1	0.386	0.358	7.3
ETTh2	0.340	0.318	6.5
ETTm1	0.334	0.312	6.6
ETTm2	0.180	0.168	6.7
Weather	0.174	0.164	5.7
ECL	0.168	0.157	6.5
Traffic	0.395	0.372	5.8
Solar	0.233	0.215	7.7