Multi-Scale Finetuning for Encoder-based Time Series Foundation Models¶

会议: NeurIPS 2025
arXiv: 2506.14087
代码: https://github.com/zqiao11/MSFT (有)
领域: 时间序列 / 基础模型微调
关键词: 时间序列基础模型, 多尺度建模, 微调, 因果推断, 参数高效微调

一句话总结¶

提出 MSFT（Multi-Scale FineTuning），通过因果分析揭示 naive 微调忽略尺度混淆问题，设计多尺度建模框架对 encoder-based 时间序列基础模型进行高效微调，显著超越 naive 微调和从头训练的 SOTA 方法。

研究背景与动机¶

时间序列基础模型（TSFM）在零样本预测上表现出色，但如何高效微调使其适配下游任务仍是一个被忽视的问题。现有微调策略（全量微调、线性探测）存在两个核心问题：

时间序列的多尺度本质被忽视：时间序列数据可在不同采样尺度下展现不同的时间模式。例如小时级别的能源消耗体现局部用电模式，日级别则体现宏观趋势。Naive 微调只在原始尺度上学习，容易过拟合到单一尺度的模式。

TSFM 的多尺度能力未被利用：TSFM 在多尺度数据集上预训练，天然具备多尺度预测能力，但 naive 微调限制了模型只在原始尺度上学习，浪费了预训练获得的多尺度知识。

作者从因果推断角度分析：尺度 \(S\) 作为混淆变量，同时影响输入 \(X\)（不同尺度的时间模式）和模型激活的知识 \(M\)（尺度特定的预训练知识），引入后门路径 \(X \leftarrow S \rightarrow M \rightarrow Y\)，导致虚假关联。因此需要通过 do-calculus 干预 \(P(Y|do(X))\) 消除混淆效应。

方法详解¶

整体框架¶

MSFT 基于因果干预框架，通过后门调整实现 \(P(Y|do(X)) = \sum_s P(Y|X,S=s,M=g(X,s))P(s)\)。具体流程： 1. 将原始时间序列下采样生成多尺度序列（因子为 \(2^k\)） 2. 各尺度独立分词、编码 3. 拼接多尺度 token 序列，通过解耦的依赖建模捕获尺度内和跨尺度依赖 4. 多尺度预测结果加权融合

关键设计¶

尺度特定知识激活：冻结预训练参数，为每个尺度引入独立的线性适配器（input projection 层）和独立的 LoRA 模块（attention 层）。这避免了不同尺度 token 分辨率差异导致的干扰，实现了方程中 \(M=g(X,s)\) 的功能——激活尺度特定的 TSFM 知识。
解耦 Token 依赖建模：分为两部分：
- In-scale attention：通过掩码 \(\mathbf{M}_{in}\) 确保 token 只关注同尺度的 token，避免不同尺度间因时间索引不对齐产生的虚假注意力
- Cross-scale aggregator：双向（粗到细 C2F、细到粗 F2C）逐层融合相邻尺度的信息。通过线性映射 \(\phi_{i,j}^l\) 将 token 映射到共享空间后，按时间对齐进行融合：C2F 用 Repeat 上采样，F2C 用 AvgPool 下采样
多尺度混合输出：各尺度独立预测 \(\hat{Y}_i\)，训练目标为加权损失 \(\mathcal{L}_{pred} = \sum_i w_i \mathcal{L}_{pred,i}\)，权重 \(w_i\) 通过 softmax 学习。推理时将各尺度预测上采样到原始分辨率后加权求和，起到集成效果，缓解过拟合。

损失函数 / 训练策略¶

使用各 TSFM 原始的预测损失（MSE 或 NLL），按学习到的尺度权重加权求和。冻结预训练参数，只训练适配器、LoRA、跨尺度聚合器和尺度权重。

实验关键数据¶

主实验（长序列预测，MSE 指标，越低越好）¶

| 数据集 | 指标 | MSFT(Moirai-Base) | Full FT(Moirai-Base) | TimeMixer | SimpleTM | 提升 | |--------|------|------|----------|------|------| | ETTm1 | MSE | 0.332 | 0.368 | 0.381 | 0.381 | -9.8% vs FT | | ETTm2 | MSE | 0.247 | 0.258 | 0.275 | 0.275 | -4.3% vs FT | | Weather | MSE | 0.213 | 0.232 | 0.240 | 0.243 | -8.2% vs FT | | Electricity | MSE | 0.169 | 0.173 | 0.182 | 0.166 | -2.3% vs FT |

MSFT 在 3 个 TSFM backbone（Moirai、Moment、UniTS）上均一致性超越 naive 微调、LoRA、AdaLoRA 等参数高效微调方法。

消融实验¶

配置	ETTm1 MSE	Weather MSE	说明
MSFT (完整)	0.332	0.213	全部组件
去除 cross-scale aggregator	0.340	0.220	跨尺度融合重要
去除 scale-specific LoRA	0.345	0.222	尺度特定知识激活重要
去除 multi-scale mixing	0.338	0.218	加权融合有帮助
单一尺度（K=0）	0.361	0.230	多尺度建模是核心

关键发现¶

多尺度建模是提升的核心来源，各组件（尺度特定适配器、解耦依赖建模、加权混合）均有独立贡献
MSFT 不仅超越各种微调方法，还超越了从头训练的 SOTA 深度学习方法（TimeMixer、SimpleTM 等）
在概率预测任务上同样适用（Moirai 的概率预测能力）

亮点与洞察¶

从因果分析的角度揭示了 naive 微调的本质问题——尺度作为混淆变量引入虚假关联，这一理论视角新颖且有说服力
框架设计简洁通用，可适配不同的 encoder-based TSFM 架构
冻结预训练参数 + 轻量适配器的设计，参数效率高且避免灾难性遗忘

局限与展望¶

仅针对 encoder-based TSFM，未探索 decoder-only（如 TimesFM）或 encoder-decoder（如 Chronos）架构
多尺度数量 K 需要手动选择，未提供自适应机制
下采样策略固定为平均池化，可以探索更多下采样方式（如小波变换）

评分¶

新颖性: ⭐⭐⭐⭐ 因果视角分析微调问题新颖，但多尺度建模本身不算全新
实验充分度: ⭐⭐⭐⭐⭐ 3 个 backbone、多个数据集、多种微调方法对比、完善消融
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，因果分析和方法设计有机结合
价值: ⭐⭐⭐⭐ 为 TSFM 微调提供了实用且有理论支撑的通用框架