TSRating: Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment¶
会议: ICLR 2026
arXiv: 2506.01290
代码: https://github.com/clsr1008/TSRating
领域: 时间序列
关键词: 时间序列质量评估, LLM判断, 元学习, 数据选择, Bradley-Terry模型
一句话总结¶
TSRating 利用 LLM 的先验知识从趋势、频率、幅度、模式四个维度成对评判时间序列数据块的质量,再通过 Bradley-Terry 模型转换为标量分数,并用元学习训练跨域泛化的 TSRater 模型,实现高效、准确的时间序列数据质量评估。
研究背景与动机¶
领域现状:高质量时间序列数据对模型性能至关重要。现有数据质量评估方法主要基于影响函数(Influence Function)和 Shapley 值,虽然在单一领域内表现不错,但计算代价高(Hessian 计算或指数级组合开销),且忽略了实际时间序列数据来自多样化领域的事实。
现有痛点:影响函数需要计算密集的 Hessian 和梯度操作,Shapley 值面临指数级计算成本。更关键的是,这些方法通常只在单一领域内有效,面对跨域的多样化时间序列数据时泛化性差。
核心矛盾:需要一种既能跨域泛化、又计算高效的时间序列质量评估方法。传统方法在估计保真度和计算效率之间难以两全。
本文目标:(1) 验证 LLM 是否能理解和判断多样化时间序列的质量;(2) 训练一个轻量级的评分模型 TSRater,替代昂贵的 LLM 推理;(3) 通过元学习实现跨域泛化。
切入角度:LLM 在文本质量评估中已展现出色能力(如 Qurating、Ask-LLM),其预训练期间积累的丰富知识可能也涵盖了时间序列数据的理解。作者验证了 LLM 确实能以 92-99% 的准确率区分时间序列的趋势、频率、幅度和模式质量。
核心 idea:用 LLM 做"老师"成对比较时间序列数据块质量,用 Bradley-Terry 模型把比较结果转成标量分数,再用元学习训练一个轻量 TSRater 在新域上高效推理。
方法详解¶
整体框架¶
输入时间序列 → 滑窗切分为数据块 → LLM 按四维度成对判断质量 → Bradley-Terry MLE 生成标量分数 → 分数分配回点级和样本级 → 用这些标注训练 TSRater → TSRater 用元学习跨 9 个域训练 → 部署时直接用 TSRater 快速评分。
关键设计¶
-
LLM 成对质量判断:
- 功能:利用 LLM 的先验知识评估时间序列数据块对的质量优劣
- 核心思路:设计四种评判标准(趋势、频率、幅度、模式)的 prompt 模板,对每对数据块 \(B_i\) 和 \(B_j\) 让 LLM 判断哪个更好,多次采样取置信度 \(p_{i \succ j}\)。为减少位置偏差,交换两个块的位置取平均。对多变量序列,逐通道判断后平均。最后用 Bradley-Terry 模型 \(p_{i \succ j} = \sigma(s(B_i) - s(B_j))\) 通过 MLE 将成对偏好转为标量分数
- 设计动机:成对比较比绝对评分更稳定可靠,Bradley-Terry 模型提供了理论扎实的标量化转换
-
TSRater 评分模型:
- 功能:将 LLM 的质量判断蒸馏到轻量级模型中以实现高效推理
- 核心思路:使用预训练的 MOMENT(~109M 参数)作为冻结的时间序列编码器提取特征,接一个 3 层 MLP(隐藏维度 256,含 LayerNorm、ReLU、残差连接)将嵌入映射到标量质量分数。训练目标是 binary cross-entropy 损失 \(\mathcal{L}_\theta\),对齐 LLM 的成对偏好判断
- 设计动机:LLM 推理代价高,训练好 TSRater 后只需轻量推理即可评估大量数据,摊销成本极低
-
元学习跨域训练:
- 功能:使 TSRater 能快速适应未见过的新域
- 核心思路:基于 MAML 策略,从 Time-300B 语料中选取 9 大领域的 22 个数据子集构建元任务。每个 episode 采样任务,在 support set 上用 signSGD 做 inner-loop 更新(避免计算二阶导),在 query set 上计算损失更新元参数。目标函数 \(\min_\theta \sum_{\mathcal{T}_i} \mathcal{L}^{query}_{\mathcal{T}_i}(\theta - \alpha \cdot \text{sign}(\nabla_\theta \mathcal{L}^{support}_{\mathcal{T}_i}(\theta)))\)
- 设计动机:signSGD 替代标准梯度避免了超梯度的高阶导数计算,大幅降低元学习的训练成本
损失函数 / 训练策略¶
TSRater 使用 binary cross-entropy 损失对齐 Bradley-Terry 模型的成对偏好。元学习阶段采用 signSGD 作为 inner-loop 优化器,外层使用标准梯度下降。每个质量维度训练一个单独的 TSRater,最后融合四个维度的归一化分数得到最终质量评估。
实验关键数据¶
主实验¶
| 数据集 (长期预测 RMSE) | Random | DataShapley | KNNShapley | TimeInf | TSRating |
|---|---|---|---|---|---|
| Electricity (Linear) | 1.601 | 1.580 | 1.325 | 1.391 | 1.390 |
| Weather (Linear) | 0.665 | 0.638 | 0.625 | 0.616 | 0.611 |
| Traffic (Linear) | 0.979 | 0.956 | 0.696 | 0.609 | 0.683 |
| ExRate (Linear) | 0.356 | 0.323 | 0.290 | 0.272 | 0.275 |
TSRating 在多数设置下超越或匹配基于 Shapley 值和影响函数的方法。
消融实验¶
| 配置 | 效果 |
|---|---|
| LLM 合成验证 | 趋势/频率/幅度/模式准确率: 94.5%/92.25%/98.75%/95.75% |
| 去除元学习 | 跨域泛化性能显著下降 |
| 去除 signSGD | 训练时间增加但性能相当 |
| 数据剪枝实验 | 移除 TSRating 选出的高质量样本后模型性能显著下降 |
关键发现¶
- LLM 在合成数据上的质量判断准确率高达 92-99%,验证了 LLM 理解时间序列质量的能力
- TSRating 在时间序列基础模型的微调场景中也有效:在高质量子集上微调显著提升泛化性能
- 元学习使 TSRater 能以极少的微调步数适应新域,验证了跨域泛化能力
亮点与洞察¶
- LLM 作为时间序列质量裁判的思路非常新颖——绕过了传统方法的计算瓶颈,将问题转化为 LLM 擅长的成对比较任务
- 四维度评判标准(趋势、频率、幅度、模式)设计合理,覆盖了时间序列的核心特性,且有经典文献支撑
- signSGD 替代标准梯度用于元学习的 inner-loop 是一个实用的工程技巧,可迁移到其他元学习场景中降低计算成本
局限与展望¶
- LLM 判断的可靠性取决于 prompt 设计和 LLM 本身的能力,对极端或罕见的时间序列模式可能判断不准
- 四个评判维度是否全面覆盖了所有领域的质量特征有待商榷(如异常值密度、信噪比等未纳入)
- TSRater 依赖冻结的 MOMENT 编码器,编码器的领域覆盖范围直接影响跨域表现
- 实验中选取 top 50% 数据训练——不同任务的最优比例可能不同
相关工作与启发¶
- vs TimeInf (Zhang et al., 2024): TimeInf 用时间感知的影响函数,计算更精确但成本高且限于单域;TSRating 用 LLM+元学习实现跨域泛化
- vs DataShapley/KNNShapley: Shapley 方法理论完备但计算指数级增长,TSRating 训练后推理成本几乎为零
- vs Qurating (Wettig et al., 2024): Qurating 用 LLM 评估文本质量,TSRating 将该思路首次拓展到时间序列领域
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将 LLM 判断应用于时间序列质量评估,思路新颖
- 实验充分度: ⭐⭐⭐⭐ 11个数据集、3个任务类型、多种基线比较,实验充分
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,框架图直观
- 价值: ⭐⭐⭐⭐ 为时间序列数据管理提供了新范式,有实际应用价值
相关论文¶
- [ICLR 2026] Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment
- [ICLR 2026] SwiftTS: A Swift Selection Framework for Time Series Pre-trained Models via Multi-task Meta-Learning
- [ICLR 2026] Adapt Data to Model: Adaptive Transformation Optimization for Domain-shared Time Series Foundation Models
- [ICLR 2026] GTM: A General Time-series Model for Enhanced Representation Learning
- [ICLR 2026] PAANO: Patch-Based Representation Learning for Time-Series Anomaly Detection