Harmonic Dataset Distillation for Time Series Forecasting¶

会议: AAAI 2026
arXiv: 2603.03760
代码: 无
领域: 时间序列预测 / 数据集蒸馏
关键词: 数据集蒸馏, 时间序列预测, 频域优化, 谐波匹配, 跨架构泛化

一句话总结¶

提出HDT（Harmonic Dataset Distillation for Time Series Forecasting），通过FFT将时间序列分解为正弦基底，在频域上通过谐波匹配（Harmonic Matching）对齐合成数据与原始数据的核心周期结构，实现强跨架构泛化和良好可扩展性的时间序列数据集蒸馏。

研究背景与动机¶

时间序列预测面临严峻的数据存储和计算成本挑战：工业传感器和生物医学监测器每日产生TB级数据，加上TimesFM和Moirai等大型基础模型的出现进一步加剧了计算负担。

数据集蒸馏（Dataset Distillation, DD）——合成一个小而精的数据集使模型训练效果接近原始完整数据——是一个有前景的解决方案。然而，直接将图像DD方法应用于时间序列预测存在两个根本性局限：

窗口化方法的缺陷（图1a）¶

现有方法将时间序列切分为固定大小的窗口（如96步输入+96步输出），每个窗口作为独立样本进行蒸馏。这种"局部到局部"的匹配方式忽略了时间序列的全局结构：

有限的可扩展性（L1）：增加合成数据长度M仅延长已有局部模式，无法捕获更广泛的全局结构，导致收益递减

架构过拟合（L2）：局部优化完全忽视了构建整个序列的全局依赖关系，导致蒸馏数据过拟合到特定骨干模型的归纳偏好，跨架构泛化性差

核心洞察¶

时间序列的本质在于其全局周期结构。通过FFT将序列分解为正弦基底，每个基底函数对整个序列有全局影响。在频域进行蒸馏可以保证每次更新都修改合成序列的整体，不会破坏时间依赖关系。

方法详解¶

整体框架¶

HDT的蒸馏流程（图2）：

将原始数据 \(\mathcal{X}\) 和合成数据 \(\mathcal{S}\) 通过FFT变换到频域
选取振幅最大的top-k频率分量作为谐波（Harmonics）
通过谐波匹配损失 \(\mathcal{L}_{\text{harm}}\) 对齐两者的谐波分布
通过梯度匹配损失 \(\mathcal{L}_{\text{grad}}\) 确保训练行为一致
优化频域中的谐波系数，最终通过iFFT恢复蒸馏数据

关键设计¶

1. 谐波匹配（Harmonic Matching）¶

为实现频率分量的精确对齐，首先从原始数据中采样与合成数据等长（M）的子序列，然后分别做FFT：

\[\mathcal{F_X} = \text{FFT}(\mathcal{X}_{\text{sub}}), \quad \mathcal{F_S} = \text{FFT}(\mathcal{S})\]

选取振幅最大的top-k频率分量作为谐波 \(\mathcal{H}\)：

\[\mathcal{H} = \text{arg top-}k_{i \in [0, \lfloor M/2 \rfloor]}(|\mathcal{F_X}[i]|)\]

仅保留谐波对应的频率分量，其余置零得到 \(\tilde{\mathcal{F_X}}\) 和 \(\tilde{\mathcal{F_S}}\)。

谐波损失最小化两者振幅的Lp距离：

\[\mathcal{L}_{\text{harm}} = \||\tilde{\mathcal{F_X}}| - |\tilde{\mathcal{F_S}}|\|_p\]

这一损失作为正则化器，强制合成数据的周期结构与原始数据对齐。由于谐波是数据的内在的、模型无关的属性，这避免了对特定骨干模型的过拟合。

2. 理论保证（Theorem 1）¶

作者提供了严格的理论证明：最小化谐波损失能保证合成数据保留原始数据的全局时间依赖结构。

核心定理基于功率谱密度（PSD）与自相关函数（ACF）的关系（Wiener-Khintchine定理）：

\[\max_{|k| \leq K} |r_{\mathcal{S}}(k) - r_{\mathcal{X}}(k)| \leq C \cdot \varepsilon\]

其中 \(\varepsilon\) 是频域近似误差。这意味着：频域谐波对齐得越好，合成数据的自相关结构就越接近原始数据的自相关结构。

3. 全局更新机制与可扩展性¶

由于每个谐波是正弦基底函数，对整个序列有全局影响，因此频域中的每次更新都修改合成序列的整体结构。

增加合成数据长度M → 可表示的周期范围更广 → 能捕获更长周期的全局结构 → 性能随M有意义地持续提升（解决L1）。

4. 梯度匹配¶

在频域谐波匹配的基础上，还使用梯度匹配作为蒸馏损失。首先通过iFFT从谐波重建时域信号：

\[\mathcal{X_H} = \text{iFFT}(\tilde{\mathcal{F_X}}), \quad \mathcal{S_H} = \text{iFFT}(\tilde{\mathcal{F_S}})\]

然后匹配模型在原始和合成数据上的多步梯度：

\[\mathcal{L}_{\text{grad}} = \frac{\|\mathcal{T}_j(\theta, \mathcal{S_H}) - \mathcal{T}_i(\theta, \mathcal{X_H})\|_2^2}{\|\theta - \mathcal{T}_i(\theta, \mathcal{X_H})\|_2^2}\]

损失函数 / 训练策略¶

最终优化目标：

\[\underset{\mathcal{F_S}}{\text{argmin}} \; \mathcal{L}_{\text{grad}} + \lambda \mathcal{L}_{\text{harm}}\]

\(\lambda\) 用于平衡两个损失
优化变量是频域系数 \(\mathcal{F_S}\)（而非时域数据点）
收敛后通过iFFT恢复最终蒸馏数据 \(\mathcal{S}\)
使用DLinear作为蒸馏骨干模型

实验关键数据¶

主实验（M=384，MSE）¶

DLinear骨干（L=同架构, T=iTransformer评估, C=xPatch评估）：

方法	ETTh1 L/T/C	ETTh2 L/T/C	ETTm2 L/T/C	Electricity L/T/C
Random	0.945/0.757/0.664	1.860/0.406/0.359	1.504/0.256/0.234	0.400/0.327/0.351
MTT	0.521/0.640/0.587	0.661/0.387/0.346	0.702/0.257/0.248	0.342/0.412/0.489
CondTSF	0.510/0.494/0.492	0.392/0.336/0.325	0.223/0.209/0.204	0.231/0.241/0.238
HDT	0.430/0.421/0.409	0.359/0.331/0.311	0.211/0.205/0.201	0.208/0.239/0.232
Full Data	0.386/0.389/0.384	0.326/0.314/0.296	0.186/0.185/0.177	0.195/0.152/0.175

关键发现：先前方法在跨架构评估时性能急剧下降（甚至不如Random），而HDT在所有设置下保持稳定。

消融实验¶

方法	ETTh1	ETTh2	ETTm1	ETTm2	Electricity	Traffic
Base（窗口梯度匹配）	0.583	0.465	0.905	0.402	0.414	0.934
Base + 分解（频域梯度匹配）	0.545	0.420	0.814	0.325	0.376	0.902
HDT（完整方法）	0.420	0.334	0.386	0.206	0.226	0.760

频域操作带来显著改善，谐波匹配进一步大幅提升。

效率与大规模实验¶

实验	结果
训练加速（iTransformer, Electricity）	全数据1650s → 蒸馏数据1.98s（834x加速）
训练加速（iTransformer, Traffic）	全数据4266s → 蒸馏数据2.32s（1839x加速）
大规模CA数据集（201K长度, 8600特征）	HDT: 44.25 MSE vs CondTSF: 197.95 vs Full: 46.63
Moirai-Large微调（311M参数）	Few-shot+HDT: MSE 1.417, 比全微调仅差2.5%，速度快80x

关键发现¶

跨架构泛化是HDT的最大优势：先前方法在骨干和评估模型不同时性能剧烈下降，HDT维持最小的MSE增量
可扩展性：随着M增加HDT持续改善，而其他方法在一定大小后饱和
蒸馏开销极小：FFT的 \(O(M\log M)\) 复杂度相对于骨干模型的梯度计算可忽略
基础模型微调：蒸馏数据可用于大型基础模型的few-shot微调，以极小训练成本获得接近全量微调的性能

亮点与洞察¶

从局部到全局的范式转移：将蒸馏从时域局部窗口转移到频域全局谐波，是一个优雅且有理论支撑的设计
理论与实践的统一：Theorem 1从PSD-ACF关系严格证明了谐波匹配保留时间依赖的理论保证
跨架构泛化的根本解决：谐波是数据的内在属性而非特定模型的产物，这保证了模型无关性
实用价值显著：834x-1839x的训练加速、大规模数据集上的有效性、基础模型微调的应用——每一个都有即时的工业价值

局限与展望¶

合成数据大小M的选择：虽然性能随M持续改善，但最优M值需要实验确定
谐波数k的超参数选择：top-k的k值对结果有影响，但未提供自适应选择策略
单变量为主：虽然实验包含多变量数据集，但频域分解是按通道独立进行的，未利用跨通道结构
蒸馏骨干的选择：实验主要使用DLinear作为蒸馏骨干，其他骨干的影响未充分探讨
可以考虑将谐波匹配扩展到其他时间序列任务（如分类、异常检测）

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 频域蒸馏 + 谐波匹配是一个新颖且理论基础扎实的范式
实验充分度: ⭐⭐⭐⭐⭐ — 3种骨干 × 6个数据集 + 跨架构评估 + 大规模实验 + 基础模型微调
写作质量: ⭐⭐⭐⭐⭐ — 问题定义清晰，理论推导严谨，实验设计系统性强
价值: ⭐⭐⭐⭐⭐ — 解决了TSF数据集蒸馏的两个根本性问题，实用价值极高