Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement¶

会议: ACL 2025
arXiv: 2503.01875
代码: HuggingFace (有，含数据集和模型)
领域: 时间序列/LLM
关键词: time series QA, multi-task learning, context enhancement, LLM fine-tuning, TSQA dataset

一句话总结¶

提出Time-MQA框架和TSQA数据集（~200k QA对），将时间序列的预测、填补、异常检测、分类和开放式推理问答统一到自然语言问答范式下，通过持续预训练LLM使其具备时间序列理解和推理能力。

研究背景与动机¶

领域现状: 时间序列分析在金融、医疗、能源等领域至关重要，但现有方法和数据集大多专注于单一任务（如预测或异常检测），缺乏多任务统一推理能力。
现有痛点: 虽然LLM已被引入时间序列分析，但多数工作仅聚焦单一任务（如预测），缺乏跨任务推理和自然语言交互能力；更关键的是，缺少配对的文本-时间序列大规模数据集。
核心矛盾: 用户希望用自然语言直观地查询时间序列（如"为什么温度在第10小时骤降？"），但现有方法只能输出数值结果，无法提供解释性推理。
本文要解决什么: 构建一个统一的多任务时间序列QA框架，使LLM能通过自然语言回答各类时间序列问题。
切入角度: 构建大规模TSQA数据集 + 基于LoRA的LLM持续预训练。
核心idea一句话: 通过构建~200k规模的多领域多任务时间序列QA数据集，持续预训练LLM使其获得时间序列知识和推理能力。

方法详解¶

整体框架¶

Time-MQA学习函数 f:(X, C, Q) → A： - X: 时间序列输入 - C: 上下文信息（背景描述、特征说明、领域知识） - Q: 自然语言问题 - A: 答案（可以是预测值、分类标签、异常时间戳或文本解释）

模型基于Mistral 7B / Llama-3 8B / Qwen-2.5 7B进行持续预训练，使用LoRA适配器。

关键设计¶

TSQA数据集构建: 覆盖12个领域（医疗、金融、能源、交通、环境、IoT等）和5种任务类型：
预测: 42,557条，输入长度64-256，预测长度8-32，来源UTSD等公开数据集+金融财报数据
填补: 38,657条，随机移除4-12个值替换为"X"
异常检测: 37,000条，输入长度8-256，来源UCR/ECG/KPI等标准数据集
分类: 37,000条，主要来自人类活动识别数据
开放式推理QA: 37,629条，用GPT-4o生成涵盖趋势、季节性、波动性等主题的问答
上下文增强: 所有数据增加了背景信息、特征描述和任务描述作为文本上下文，帮助模型在相同时间序列上根据不同上下文给出不同推理。
训练策略: 将TSQA与通用QA语料（OpenOrca）按7:3混合，共10k QA对用于持续预训练。使用单张A100-80GB训练约1天。

损失函数 / 训练策略¶

使用LoRA (r=16, alpha=16) + AdamW (8-bit)
学习率5e-5，embedding学习率1e-5，cosine scheduler
4000 max steps, 1000 warm-up steps
Batch size 4, gradient accumulation 8
目标模块: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj

实验关键数据¶

主实验 — 多任务性能对比¶

模型	Forecasting↓	Imputation↓	Anomaly↑	Classification↑	Judgment↑	MCQ↑
Doubao	—*	0.018	0.52	0.44	0.78	0.56
GPT-4o	1.79	0.018	0.64	0.32	0.72	0.58
Llama-3 8B	2.01	0.020	0.54	0.24	0.74	0.48
Qwen-2.5 7B	1.82	0.016	0.68	0.52	0.82	0.54
Mistral 7B	1.35	0.014	0.58	0.44	0.80	0.64

消融实验 — TSQA有效性¶

模型	Judgment↑	MCQ↑
Zero-shot Mistral 7B	0.78	0.60
TSQA-tuned Mistral 7B	0.80	0.64

关键发现¶

Mistral 7B在预测任务上MSE=1.35优于GPT-4o的1.79，说明持续预训练有效
Qwen-2.5 7B在异常检测(0.68)和分类(0.52)上最强，且Judgment准确率达82%
TSQA-tuned模型在开放式推理上比zero-shot版本有改善（MCQ: 0.64 vs 0.60）
用户研究（78人）：Mistral在数值精确性方面最受青睐（80.8%偏好），Qwen在趋势分析上更强
微调后的模型能提供预测背后的推理，展现了超越数值输出的能力

亮点与洞察¶

数据集贡献突出: TSQA是首个大规模多领域多任务时间序列QA数据集（~200k），规模远超现有数据集（10x+）
统一框架思路: 将传统割裂的时间序列任务统一到QA范式，符合LLM时代的交互范式
上下文增强的价值: 同一时间序列在不同背景信息下可给出不同解读，这一设计促进了模型的上下文推理能力
开源生态: 数据集、模型、用户研究问卷全部开源

局限性 / 可改进方向¶

预测任务MSE较高（1.35-2.01），长时间序列对LLM仍是挑战，存在hallucination风险
实验规模有限：每种任务仅用50条QA对评测，统计显著性存疑
开放式推理QA的答案由GPT-4o生成，答案质量受GPT-4o能力限制
训练仅用了10k QA对（~200k中的5%），未充分利用完整数据集的潜力
自动评估指标无法完全衡量开放式回答质量，用户研究覆盖面也有限
金融数据仅限财报电话会议，未包含更丰富的金融时间序列

评分¶

⭐⭐⭐⭐ (3.5/5) - 新颖性: ⭐⭐⭐⭐ — 统一多任务QA框架和大规模数据集是主要贡献，但方法本身（LoRA微调）较常规 - 实验充分度: ⭐⭐⭐ — 多模型对比+用户研究，但每任务仅50条评测样本略显不足 - 写作质量: ⭐⭐⭐⭐ — 框架和数据集描述清晰，图示丰富 - 价值: ⭐⭐⭐⭐ — 数据集贡献最有价值，是时序+LLM研究的重要资源