AAAI 2026 时间序列极端事件预测频域建模混合专家小波变换傅里叶变换多分辨率融合水文预测

M2FMoE: Multi-Resolution Multi-View Frequency Mixture-of-Experts for Extreme-Adaptive Time Series Forecasting¶

会议: AAAI 2026
arXiv: 2601.08631
代码: https://github.com/Yaohui-Huang/M2FMoE
领域: 时间序列预测
关键词: 极端事件预测, 频域建模, 混合专家, 小波变换, 傅里叶变换, 多分辨率融合, 水文预测

一句话总结¶

提出 M2FMoE，通过傅里叶和小波双视角的频域混合专家建模常规与极端模式，结合跨视角共享频段分割器对齐两域语义、多分辨率自适应融合捕获多尺度信息、时序门控整合长短期特征，在 5 个水文极端事件数据集上无需极端事件标签即超越所有 SotA（含使用标签的方法），平均 RMSE 提升 22.3%。

研究背景与动机¶

领域现状：时间序列预测在能源、交通、环境监测等领域至关重要。水文预测中的极端事件（暴雨、洪水、水位骤升）因稀有、突发、高方差而特别难以预测。

现有痛点：
- 主流深度学习模型（Transformer、MLP 等）聚焦于主导的规律性模式（周期、平滑趋势），对极端事件的不规则高频突变建模不力
- 频域方法（FFT / 小波）各有缺陷：FFT 提供全局频率但缺乏时间定位，小波有时频局部化但低频分辨率不足
- 已有极端自适应方法（DAN、MCANN 等）依赖极端事件标签作为辅助监督，限制了泛化能力
- 双视角策略引入跨视角频谱不对齐问题：FFT 的均匀频率轴与 CWT 的非线性尺度轴导致同一信号在两域中位置不一致

核心矛盾：极端事件与常规事件的频谱特性显著不同（极端：宽频多峰慢衰减 vs 常规：窄带低频集中），需要自适应聚焦不同频段，且单一频域视角无法兼顾全局与局部信息。

本文目标 在不依赖极端事件标签的前提下，通过多视角、多分辨率的频域建模统一捕获常规与极端两种时序模式。

切入角度：利用 MoE 的专家特化能力，将不同频段分配给不同专家；用共享频段分割器解决跨视角对齐问题。

核心 idea：FFT 专家看全局周期 + 小波专家看局部突变 → 共享频段分割器对齐两域 → 多分辨率融合从粗到细 → 门控整合长短期。

方法详解¶

整体框架¶

M2FMoE 包含三大模块：
1. 多视角频率混合专家（MFMoE）：FFT 分支 + 小波分支，各含 \(E\) 个频段专家
2. 多分辨率自适应融合（MAF）：从多个时间分辨率聚合特征
3. 时序门控整合（TGI）：自适应融合短期预测与长期历史表示

输入信号先经层次化时间分割提取近期段 \(\mathbf{X}_r\) 和完整历史 \(\mathbf{X}\)；近期段通过多分辨率平滑卷积生成不同粒度的差分序列 \(\Delta \mathbf{X}_r^{(k)}\)，送入 MFMoE。

关键设计 1：跨视角共享频段分割器（CSS）¶

学习共享频率边界 \(\{\beta_1, \ldots, \beta_{E-1}\}\) 将频率范围 \([0,1]\) 分为 \(E\) 个频段
FFT 视角：边界直接缩放为频率索引 \(\{\tilde{\beta}_e\}\)
小波视角：通过 Theorem 1 的逆映射（\(a = \gamma/f\)）将频率边界非线性映射为小波尺度索引 \(\{\ddot{\beta}_e\}\)
理论保证：Theorem 1 证明频率-尺度映射保持信号能量守恒
核心价值：使两个视角的专家在语义一致的频段上工作，消除跨视角不对齐问题

关键设计 2：双视角频率专家分支¶

FFT 分支（Fig. 2c）： - 对差分序列逐通道做 FFT，用二值掩码 \(\tilde{\mathbb{I}}_e\) 隔离每个专家的频段 - 轻量路由网络：对幅度谱通道平均 → 两层 Linear+ReLU+Softmax → 得到路由权重 \(\boldsymbol{\alpha}\) - 按权重加权聚合各专家频段 → IFFT → 线性投影，输出 \(\tilde{\mathbf{V}} \in \mathbb{R}^{T_p \times C}\)

小波分支（Fig. 2d）： - 用复高斯小波做 CWT 得功率谱 \(\mathcal{P} = |\mathcal{W}(a,b)|^2\) - 用尺度掩码 \(\ddot{\mathbb{I}}_e\) 隔离各专家的尺度范围 - 每个专家用 2 层卷积块处理：Conv → ReLU → Dropout → Conv - 类似路由机制产生门控权重 \(\boldsymbol{\eta}\)，加权聚合后展平 → 两层线性投影

互补性：FFT 专家主攻低频全局趋势，小波专家主攻高频局部突变，路由机制根据输入谱特性动态调整权重。

关键设计 3：多分辨率自适应融合（MAF）+ 时序门控（TGI）¶

MAF： - 多视角融合：将 FFT 和小波分支输出沿通道拼接，加时间编码，经 BN + Linear 融合 - 多分辨率融合：不同分辨率的融合结果经各自线性变换后累加：\(\mathbf{H}_r = \sum_{i=1}^{R} \text{Linear}_i(\mathbf{H}_u^{(i)})\) - 加回最后观测值恢复原始值域

TGI： - 历史输入 \(\mathbf{X}\) 线性投影得 \(\mathbf{H}_h\) - 门控系数 \(\mathbf{G} = \sigma(\text{Linear}([\mathbf{H}_r; \mathbf{H}_h]))\) - 最终输出 \(\hat{\mathbf{X}} = \mathbf{G} \odot \mathbf{H}_r + (1-\mathbf{G}) \odot \mathbf{H}_h\)

损失函数¶

\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{pred}} + \lambda \mathcal{L}_{\text{div}} + \mu \mathcal{L}_{\text{cons}}\)

\(\mathcal{L}_{\text{pred}}\)：MSE 预测损失
\(\mathcal{L}_{\text{div}}\)：专家多样性损失，鼓励不同专家输出差异化（标准差惩罚）
\(\mathcal{L}_{\text{cons}}\)：跨视角一致性损失，鼓励同一频段在 FFT 和小波视角的专家输出余弦相似

实验¶

主实验结果（5 个水库，预测 8h 与 72h）¶

数据集	H(h)	M2FMoE RMSE	CATS RMSE	FreqMoE RMSE	iTrans RMSE	MCANN RMSE (w/ 标签)
Almaden	8	7.99	16.09	14.73	32.13	8.45
Coyote	8	48.80	110.85	593.14	372.52	86.83
Lexington	8	251.96	618.99	387.00	690.43	253.0
Stevens Cr.	8	10.56	18.50	80.94	48.88	12.13
Vasona	8	5.13	6.91	14.32	12.18	5.35
Coyote	72	449.94	509.08	855.10	673.85	559.75
Lexington	72	772.84	906.53	1003.82	960.65	778.02

平均排名 1.4（vs 无标签基线最佳 CATS 3.7、有标签 MCANN 1.7）
对比无标签最佳基线平均 RMSE 提升 22.30%，最大提升 52.86%（Coyote, 8h）
对比使用极端事件标签的 MCANN 平均 RMSE 提升 9.19%，最大提升 43.8%

消融实验（预测 72h）¶

消融变体	Almaden	Coyote	Lexington	Stevens Cr.	Vasona
Full M2FMoE	54.12	449.94	772.84	76.94	19.57
w/o 小波分支	57.70	555.64	827.39	87.19	19.84
w/o FFT 分支	59.04	558.26	870.74	85.02	19.81
w/o 多分辨率	59.48	483.22	855.24	85.00	19.51
w/o CSS	55.58	541.59	916.93	86.00	20.00
w/o 对齐	59.12	516.73	872.03	85.80	19.28
w/o 双视角	56.27	453.46	789.04	79.06	19.38

关键发现¶

双视角互补有效：移除任一分支都明显恶化，FFT 分支去除的影响稍大（失去全局趋势建模能力）
CSS 的跨视角对齐至关重要：移除 CSS 后 Lexington 上 RMSE 增加 18.6%，说明语义一致的频段分割是双视角协作的关键
极端事件中小波专家激活更强：t-SNE 可视化显示小波视角对高频局部突变更敏感，FFT 视角更擅长稳定周期模式
专家数量 3-4 为最佳：过多专家引入噪声和过拟合
近期段长度有 sweet spot：过短信息不足，过长引入噪声；完全不用近期段性能显著下降
在 ETTh 等常规数据集上与 PatchTST/TimesNet 竞争力，但短期预测更突出

亮点¶

无需极端事件标签即超越使用标签的方法：纯端到端学习，泛化性更强
严谨的跨域对齐理论：Theorem 1 提供频率-尺度映射的能量守恒证明，CSS 基于此实现可学习的共享边界
从频谱异质性角度切入极端事件：首次系统分析极端 vs 常规事件的频谱差异（Fig 1），为频域建模提供直觉
MoE + 多分辨率的嵌套设计：频段级专家特化 → 视角级融合 → 分辨率级聚合 → 时序级门控，层次递进且各有明确功能

局限性¶

仅在水文数据集上验证，未在金融、交通等其他极端事件场景测试，泛化性有待扩展
CWT 计算成本较 FFT 高（使用 PyWavelets 库），对超长序列可能成为瓶颈
在长期预测（ETTh1/h2 的 96h→96h）上不如 PatchTST/TimesNet，说明该方法更适合短-中期极端事件场景
专家数和分辨率等超参数需要逐数据集调优，自动化程度不足
多样性损失和一致性损失的权重 \(\lambda, \mu\) 需手动设置

评分¶

⭐⭐⭐⭐ — 从频谱异质性角度切入极端事件预测非常新颖，CSS 提供了严谨的跨域对齐理论，无标签即超越有标签方法是强有力的结果。模块设计层次清晰、各有分工。不足在于验证场景偏窄（仅水文）、长期预测场景性能一般。总体是极端事件时序预测领域的扎实推进。