跳转至

TSRating: Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

会议: ICLR 2026
arXiv: 2506.01290
代码: https://github.com/clsr1008/TSRating
领域: 时间序列
关键词: 时间序列质量评估, LLM判断, 元学习, 数据选择, Bradley-Terry模型

一句话总结

TSRating 利用 LLM 的先验知识从趋势、频率、幅度、模式四个维度成对评判时间序列数据块的质量,再通过 Bradley-Terry 模型转换为标量分数,并用元学习训练跨域泛化的 TSRater 模型,实现高效、准确的时间序列数据质量评估。

研究背景与动机

领域现状:高质量时间序列数据对模型性能至关重要。现有数据质量评估方法主要基于影响函数(Influence Function)和 Shapley 值,虽然在单一领域内表现不错,但计算代价高(Hessian 计算或指数级组合开销),且忽略了实际时间序列数据来自多样化领域的事实。

现有痛点:影响函数需要计算密集的 Hessian 和梯度操作,Shapley 值面临指数级计算成本。更关键的是,这些方法通常只在单一领域内有效,面对跨域的多样化时间序列数据时泛化性差。

核心矛盾:需要一种既能跨域泛化、又计算高效的时间序列质量评估方法。传统方法在估计保真度和计算效率之间难以两全。

本文目标:(1) 验证 LLM 是否能理解和判断多样化时间序列的质量;(2) 训练一个轻量级的评分模型 TSRater,替代昂贵的 LLM 推理;(3) 通过元学习实现跨域泛化。

切入角度:LLM 在文本质量评估中已展现出色能力(如 Qurating、Ask-LLM),其预训练期间积累的丰富知识可能也涵盖了时间序列数据的理解。作者验证了 LLM 确实能以 92-99% 的准确率区分时间序列的趋势、频率、幅度和模式质量。

核心 idea:用 LLM 做"老师"成对比较时间序列数据块质量,用 Bradley-Terry 模型把比较结果转成标量分数,再用元学习训练一个轻量 TSRater 在新域上高效推理。

方法详解

整体框架

输入时间序列 → 滑窗切分为数据块 → LLM 按四维度成对判断质量 → Bradley-Terry MLE 生成标量分数 → 分数分配回点级和样本级 → 用这些标注训练 TSRater → TSRater 用元学习跨 9 个域训练 → 部署时直接用 TSRater 快速评分。

关键设计

  1. LLM 成对质量判断:

    • 功能:利用 LLM 的先验知识评估时间序列数据块对的质量优劣
    • 核心思路:设计四种评判标准(趋势、频率、幅度、模式)的 prompt 模板,对每对数据块 \(B_i\)\(B_j\) 让 LLM 判断哪个更好,多次采样取置信度 \(p_{i \succ j}\)。为减少位置偏差,交换两个块的位置取平均。对多变量序列,逐通道判断后平均。最后用 Bradley-Terry 模型 \(p_{i \succ j} = \sigma(s(B_i) - s(B_j))\) 通过 MLE 将成对偏好转为标量分数
    • 设计动机:成对比较比绝对评分更稳定可靠,Bradley-Terry 模型提供了理论扎实的标量化转换
  2. TSRater 评分模型:

    • 功能:将 LLM 的质量判断蒸馏到轻量级模型中以实现高效推理
    • 核心思路:使用预训练的 MOMENT(~109M 参数)作为冻结的时间序列编码器提取特征,接一个 3 层 MLP(隐藏维度 256,含 LayerNorm、ReLU、残差连接)将嵌入映射到标量质量分数。训练目标是 binary cross-entropy 损失 \(\mathcal{L}_\theta\),对齐 LLM 的成对偏好判断
    • 设计动机:LLM 推理代价高,训练好 TSRater 后只需轻量推理即可评估大量数据,摊销成本极低
  3. 元学习跨域训练:

    • 功能:使 TSRater 能快速适应未见过的新域
    • 核心思路:基于 MAML 策略,从 Time-300B 语料中选取 9 大领域的 22 个数据子集构建元任务。每个 episode 采样任务,在 support set 上用 signSGD 做 inner-loop 更新(避免计算二阶导),在 query set 上计算损失更新元参数。目标函数 \(\min_\theta \sum_{\mathcal{T}_i} \mathcal{L}^{query}_{\mathcal{T}_i}(\theta - \alpha \cdot \text{sign}(\nabla_\theta \mathcal{L}^{support}_{\mathcal{T}_i}(\theta)))\)
    • 设计动机:signSGD 替代标准梯度避免了超梯度的高阶导数计算,大幅降低元学习的训练成本

损失函数 / 训练策略

TSRater 使用 binary cross-entropy 损失对齐 Bradley-Terry 模型的成对偏好。元学习阶段采用 signSGD 作为 inner-loop 优化器,外层使用标准梯度下降。每个质量维度训练一个单独的 TSRater,最后融合四个维度的归一化分数得到最终质量评估。

实验关键数据

主实验

数据集 (长期预测 RMSE) Random DataShapley KNNShapley TimeInf TSRating
Electricity (Linear) 1.601 1.580 1.325 1.391 1.390
Weather (Linear) 0.665 0.638 0.625 0.616 0.611
Traffic (Linear) 0.979 0.956 0.696 0.609 0.683
ExRate (Linear) 0.356 0.323 0.290 0.272 0.275

TSRating 在多数设置下超越或匹配基于 Shapley 值和影响函数的方法。

消融实验

配置 效果
LLM 合成验证 趋势/频率/幅度/模式准确率: 94.5%/92.25%/98.75%/95.75%
去除元学习 跨域泛化性能显著下降
去除 signSGD 训练时间增加但性能相当
数据剪枝实验 移除 TSRating 选出的高质量样本后模型性能显著下降

关键发现

  • LLM 在合成数据上的质量判断准确率高达 92-99%,验证了 LLM 理解时间序列质量的能力
  • TSRating 在时间序列基础模型的微调场景中也有效:在高质量子集上微调显著提升泛化性能
  • 元学习使 TSRater 能以极少的微调步数适应新域,验证了跨域泛化能力

亮点与洞察

  • LLM 作为时间序列质量裁判的思路非常新颖——绕过了传统方法的计算瓶颈,将问题转化为 LLM 擅长的成对比较任务
  • 四维度评判标准(趋势、频率、幅度、模式)设计合理,覆盖了时间序列的核心特性,且有经典文献支撑
  • signSGD 替代标准梯度用于元学习的 inner-loop 是一个实用的工程技巧,可迁移到其他元学习场景中降低计算成本

局限与展望

  • LLM 判断的可靠性取决于 prompt 设计和 LLM 本身的能力,对极端或罕见的时间序列模式可能判断不准
  • 四个评判维度是否全面覆盖了所有领域的质量特征有待商榷(如异常值密度、信噪比等未纳入)
  • TSRater 依赖冻结的 MOMENT 编码器,编码器的领域覆盖范围直接影响跨域表现
  • 实验中选取 top 50% 数据训练——不同任务的最优比例可能不同

相关工作与启发

  • vs TimeInf (Zhang et al., 2024): TimeInf 用时间感知的影响函数,计算更精确但成本高且限于单域;TSRating 用 LLM+元学习实现跨域泛化
  • vs DataShapley/KNNShapley: Shapley 方法理论完备但计算指数级增长,TSRating 训练后推理成本几乎为零
  • vs Qurating (Wettig et al., 2024): Qurating 用 LLM 评估文本质量,TSRating 将该思路首次拓展到时间序列领域

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将 LLM 判断应用于时间序列质量评估,思路新颖
  • 实验充分度: ⭐⭐⭐⭐ 11个数据集、3个任务类型、多种基线比较,实验充分
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,框架图直观
  • 价值: ⭐⭐⭐⭐ 为时间序列数据管理提供了新范式,有实际应用价值

相关论文