跳转至

STaRFormer: Semi-Supervised Task-Informed Representation Learning via Dynamic Attention-Based Regional Masking

会议: NeurIPS 2025 arXiv: 2504.10097 代码: https://star-former.github.io 领域: 时间序列 / 表征学习 关键词: 时序分类, 对比学习, 动态掩码, 非平稳, 不规则采样

一句话总结

提出 STaRFormer,通过动态注意力区域掩码(DAReM)识别任务关键区域并施加掩码扰动,配合批内+类内半监督对比学习将任务信息嵌入潜在表示,在 56 个数据集(含非平稳、不规则采样、分类/异常检测/回归)上全面超越 SOTA。

研究背景与动机

  1. 领域现状:时序建模方法通常假设数据完整、平稳、均匀采样。自监督对比学习(TS2Vec/TimesURL)与下游任务解耦。

  2. 现有痛点:真实世界传感器数据常有非平稳和不规则采样(如 UWB 测距:79% 非平稳);预训练式对比学习与下游任务耦合不足。

  3. 核心矛盾:对比学习需要好的增强策略,但传统随机增强不考虑任务相关性。掩关键区域才能迫使模型学到鲁棒表示。

  4. 本文要解决什么? 设计将表征学习与下游任务耦合的框架,同时处理非平稳和不规则采样。

  5. 切入角度:动态注意力掩码找到任务关键区域→掩码→重建→批内/类内对比学习。

  6. 核心 idea:DAReM 找任务关键区域→掩码扰动统计属性→半监督对比学习耦合下游任务 = 任务感知的鲁棒时序表示。

方法详解

整体框架

Siamese 架构:左塔处理原始序列做下游任务,右塔处理掩码序列做重建。两塔共享参数,生成未掩码/掩码潜在表示,通过半监督对比损失对齐。

关键设计

  1. DAReM:
  2. 做什么:动态识别并掩码任务关键区域
  3. 核心思路:收集注意力权重→attention rollout→计算全局重要性分数→在重要区域施加区域掩码
  4. 设计动机:掩关键区域迫使模型不依赖单一特征,提升鲁棒性

  5. 半监督对比学习:

  6. 做什么:融合自监督(批内)和监督(类内)对比
  7. 核心思路:批内——同一序列的掩码/未掩码表示为正对;类内——同类序列也为正对
  8. 设计动机:半监督在纯自监督和纯监督之间取得平衡

损失函数

  • \(\mathfrak{L} = \mathfrak{L}_{Task} + \lambda_{CL}[\lambda_{fuse}\mathfrak{L}_{bw} + (1-\lambda_{fuse})\mathfrak{L}_{cw}]\)

实验关键数据

主实验(56 个数据集)

数据类型 任务 STaRFormer 最佳基线 提升
非平稳+时空(DKT) 分类 0.852 0.849 (Transformer) +0.3%
非平稳+时空(GeoLife) 分类 0.932 0.913 (ST-GRU) +2.1%
不规则采样(P19/P12/PAM) 分类 AUROC/Acc 提升 多个基线 显著
30 UEA 数据集 分类 14/30 最佳 TARNet等 综合最优

消融实验

配置 效果 说明
w/o DAReM 下降 任务关键区域的掩码更有效
w/o 类内对比 下降 监督信号对表示质量重要
w/o 批内对比 下降 自监督提供额外正则化

关键发现

  • DAReM 对非平稳数据特别有效
  • 半监督 > 纯自监督 > 纯监督
  • 56 个数据集证明通用性

亮点与洞察

  • “掩关键区域”比“掩随机区域”信息量大得多
  • 任务耦合的对比学习对下游任务更直接

局限性

  • DAReM 超参数需要调节
  • 主要在 Transformer 骨干上验证

相关工作

  • vs TARNet: TARNet 做点掩码+重建。STaRFormer 推广到区域掩码+半监督对比
  • vs TS2Vec/TimesURL: 解耦的自监督。STaRFormer 耦合下游任务

评分

  • 新颖性: ⭐⭐⭐⭐ DAReM+半监督对比组合新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 56 个数据集 × 3 类任务
  • 写作质量: ⭐⭐⭐⭐ 方法刻画清晰
  • 价值: ⭐⭐⭐⭐ 对时序表征学习有重要参考

补充技术细节

  • DAReM 的三个超参数:\(\varphi\)(最大掩码比例)、\(\zeta\)(注意力分数阈值)、\(\gamma\)(区域边界)
  • 对比学习温度 \(\tau\) 在所有实验中设为 0.1
  • 在 BMW 工业数据集(Digital Key Trajectories)上的真实场景验证证明了实际部署价值
  • 回归任务使用 k-means 生成伪标签,k 是需要优化的超参数
  • 异常检测任务使用元素级对比,含 intra-class 和 inter-class 两种正对组合
  • 大规模联邦学习环境的实验已在并行工作 [forstenhausler_leveraging_2025] 中进行
  • 在 UEA 多变量基准的 30 个数据集中,14 个数据集上最佳,证明框架的通用性
  • 对不规则采样的医疗数据集(P19/P12/PAM)效果特别显著
  • 与 ViTST 的对比表明,直接建模时序比转化为图像再用 ViT 更有效
  • 对异常检测任务在 5 个数据集上取得多项 SOTA F1 分数
  • 回归任务在工业设备预测性维护场景中验证
  • Siamese 网络的参数共享使得额外计算开销仅约 30%