跳转至

Synthetic Series-Symbol Data Generation for Time Series Foundation Models

会议: NEURIPS2025
arXiv: 2510.08445
代码: GitHub
领域: time_series
关键词: time series foundation model, synthetic data generation, symbolic expressions, contrastive learning, pre-training

一句话总结

提出 Series-Symbol (S²) 数据生成机制和 SymTime 基础模型,通过符号表达式与时序数据的双模态对比学习预训练,在纯合成数据上训练即可在 5 大时序分析任务上与真实数据预训练的基础模型竞争。

背景与动机

  • 时序基础模型面临训练数据稀缺和分布不平衡问题(相比 CV/NLP 数据集小得多)
  • 现有大规模时序数据集在金融、医疗等领域仍然不足
  • 根据 Scaling Laws,数据不平衡导致模型在 OOD 数据上泛化能力下降
  • Takens 定理:时序是复杂动态系统的低维投影;符号动力学:复杂系统可用符号表达式抽象表示

核心问题

如何通过无限生成高质量合成时序数据来克服时序基础模型的数据稀缺和分布不平衡问题?

方法详解

  1. S² 数据生成
  2. 随机采样构建多变量符号表达式 f(·)(二叉树结构:二元运算符 → 变量/常数叶节点 → 一元运算符 → 仿射变换)
  3. 输入采样:混合分布 + ARMA 过程,生成 X∈R^{M×L}
  4. 前向传播 Y=f(X) 得到输出序列,形成序列-符号配对
  5. 总计生成 40M 对,50B token 规模
  6. SymTime 架构
  7. 时序编码器:6 层 Transformer + Masked Time Series Modeling (MTM)
  8. 符号编码器:6 层 DistilBERT + Masked Language Modeling (MLM)
  9. 序列-符号对比学习:MoCo 风格的动量编码器 + 跨模态对比损失
  10. 动量蒸馏:对齐掩码数据的输出表示与动量编码器的输出
  11. 下游微调:分类任务用线性头;重建类任务(预测/填补/异常检测)先分解趋势+周期分量

实验关键数据

  • Scaling 效果:预训练数据从 0B→50B,长期预测 MSE 从 0.358 降至 0.336,短期 OWA 从 0.887 降至 0.849
  • 长期预测:50B 预训练在 8 个数据集上平均 MSE 0.336、MAE 0.349,与实际数据训练的基础模型竞争
  • 填补任务:50B 时 ETTm2 MSE 仅 0.026,远优于 0B 的 0.038
  • 消融实验:去除符号编码器后性能下降(w/o Symbol),证明符号信息增强了时序表示
  • 表示学习:t-SNE 显示预训练后时序编码器对不同运算符类型形成清晰聚类
  • 复杂度:比 Time-LLM 等 LLM 基础模型参数更少、显存更低

亮点

  • 基于 Takens 定理的理论支撑:符号表达式与时序有严格的语义对应关系
  • 数据可无限生成且覆盖全表示空间(Radviz 可视化验证)
  • 在纯合成数据上预训练即可获得有竞争力的下游性能,完全绕过数据隐私和稀缺问题
  • 跨模态对比学习让时序编码器学到符号语义,独特的归纳偏置

局限性 / 可改进方向

  • 符号表达式覆盖度受限于选定的运算符集合
  • 当前仅使用 ODE/PDE 式符号表达式,未涵盖随机微分方程等
  • 模型规模较小(6层 Transformer),未探索更大模型的 scaling behavior
  • 与最新零样本预测模型(Chronos、Moirai 等)的对比不够充分

与相关工作的对比

方法 预训练数据 数据规模 零样本 任务覆盖
Moirai 真实数据 27B 预测
Timer 真实数据 1B 预测
Chronos 合成+真实 - 预测
SymTime 纯合成 S² 50B 5大任务

启发与关联

  • 核心 insight:时序的本质是动态系统的投影,用符号表达式生成时序是"从源头造数据"
  • 符号-时序的跨模态对齐思路可能启发新的多模态时序模型

评分

  • 新颖性: ⭐⭐⭐⭐ (符号-时序双模态预训练思路新颖)
  • 实验充分度: ⭐⭐⭐⭐ (5大任务 + scaling + 消融 + 表示分析)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,理论与实验衔接好)
  • 价值: ⭐⭐⭐⭐ (为时序基础模型提供新的数据范式)