STaRFormer: Semi-Supervised Task-Informed Representation Learning via Dynamic Attention-Based Regional Masking¶
会议: NeurIPS 2025 arXiv: 2504.10097 代码: https://star-former.github.io 领域: 时间序列 / 表征学习 关键词: 时序分类, 对比学习, 动态掩码, 非平稳, 不规则采样
一句话总结¶
提出 STaRFormer,通过动态注意力区域掩码(DAReM)识别任务关键区域并施加掩码扰动,配合批内+类内半监督对比学习将任务信息嵌入潜在表示,在 56 个数据集(含非平稳、不规则采样、分类/异常检测/回归)上全面超越 SOTA。
研究背景与动机¶
-
领域现状:时序建模方法通常假设数据完整、平稳、均匀采样。自监督对比学习(TS2Vec/TimesURL)与下游任务解耦。
-
现有痛点:真实世界传感器数据常有非平稳和不规则采样(如 UWB 测距:79% 非平稳);预训练式对比学习与下游任务耦合不足。
-
核心矛盾:对比学习需要好的增强策略,但传统随机增强不考虑任务相关性。掩关键区域才能迫使模型学到鲁棒表示。
-
本文要解决什么? 设计将表征学习与下游任务耦合的框架,同时处理非平稳和不规则采样。
-
切入角度:动态注意力掩码找到任务关键区域→掩码→重建→批内/类内对比学习。
-
核心 idea:DAReM 找任务关键区域→掩码扰动统计属性→半监督对比学习耦合下游任务 = 任务感知的鲁棒时序表示。
方法详解¶
整体框架¶
Siamese 架构:左塔处理原始序列做下游任务,右塔处理掩码序列做重建。两塔共享参数,生成未掩码/掩码潜在表示,通过半监督对比损失对齐。
关键设计¶
- DAReM:
- 做什么:动态识别并掩码任务关键区域
- 核心思路:收集注意力权重→attention rollout→计算全局重要性分数→在重要区域施加区域掩码
-
设计动机:掩关键区域迫使模型不依赖单一特征,提升鲁棒性
-
半监督对比学习:
- 做什么:融合自监督(批内)和监督(类内)对比
- 核心思路:批内——同一序列的掩码/未掩码表示为正对;类内——同类序列也为正对
- 设计动机:半监督在纯自监督和纯监督之间取得平衡
损失函数¶
- \(\mathfrak{L} = \mathfrak{L}_{Task} + \lambda_{CL}[\lambda_{fuse}\mathfrak{L}_{bw} + (1-\lambda_{fuse})\mathfrak{L}_{cw}]\)
实验关键数据¶
主实验(56 个数据集)¶
| 数据类型 | 任务 | STaRFormer | 最佳基线 | 提升 |
|---|---|---|---|---|
| 非平稳+时空(DKT) | 分类 | 0.852 | 0.849 (Transformer) | +0.3% |
| 非平稳+时空(GeoLife) | 分类 | 0.932 | 0.913 (ST-GRU) | +2.1% |
| 不规则采样(P19/P12/PAM) | 分类 | AUROC/Acc 提升 | 多个基线 | 显著 |
| 30 UEA 数据集 | 分类 | 14/30 最佳 | TARNet等 | 综合最优 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| w/o DAReM | 下降 | 任务关键区域的掩码更有效 |
| w/o 类内对比 | 下降 | 监督信号对表示质量重要 |
| w/o 批内对比 | 下降 | 自监督提供额外正则化 |
关键发现¶
- DAReM 对非平稳数据特别有效
- 半监督 > 纯自监督 > 纯监督
- 56 个数据集证明通用性
亮点与洞察¶
- “掩关键区域”比“掩随机区域”信息量大得多
- 任务耦合的对比学习对下游任务更直接
局限性¶
- DAReM 超参数需要调节
- 主要在 Transformer 骨干上验证
相关工作¶
- vs TARNet: TARNet 做点掩码+重建。STaRFormer 推广到区域掩码+半监督对比
- vs TS2Vec/TimesURL: 解耦的自监督。STaRFormer 耦合下游任务
评分¶
- 新颖性: ⭐⭐⭐⭐ DAReM+半监督对比组合新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 56 个数据集 × 3 类任务
- 写作质量: ⭐⭐⭐⭐ 方法刻画清晰
- 价值: ⭐⭐⭐⭐ 对时序表征学习有重要参考
补充技术细节¶
- DAReM 的三个超参数:\(\varphi\)(最大掩码比例)、\(\zeta\)(注意力分数阈值)、\(\gamma\)(区域边界)
- 对比学习温度 \(\tau\) 在所有实验中设为 0.1
- 在 BMW 工业数据集(Digital Key Trajectories)上的真实场景验证证明了实际部署价值
- 回归任务使用 k-means 生成伪标签,k 是需要优化的超参数
- 异常检测任务使用元素级对比,含 intra-class 和 inter-class 两种正对组合
- 大规模联邦学习环境的实验已在并行工作 [forstenhausler_leveraging_2025] 中进行
- 在 UEA 多变量基准的 30 个数据集中,14 个数据集上最佳,证明框架的通用性
- 对不规则采样的医疗数据集(P19/P12/PAM)效果特别显著
- 与 ViTST 的对比表明,直接建模时序比转化为图像再用 ViT 更有效
- 对异常检测任务在 5 个数据集上取得多项 SOTA F1 分数
- 回归任务在工业设备预测性维护场景中验证
- Siamese 网络的参数共享使得额外计算开销仅约 30%