Learning to Reason Over Time: Timeline Self-Reflection for Temporal Reasoning¶
会议: ACL 2025
arXiv: 2504.05258
代码: https://github.com/amazon-science/TISER
领域: LLM推理
关键词: 时间推理, 自反思, 时间线构建, Test-Time Scaling, 合成数据
一句话总结¶
提出 TISER 框架,通过"推理→时间线构建→自反思→答案生成"四阶段管道实现LLM时间推理的test-time scaling,配合合成推理轨迹数据微调,让 7B 开源模型在多个时间推理基准上超越 GPT-4,在TGQA等任务上达到 SOTA。
研究背景与动机¶
- 领域现状:LLM 在很多任务上表现优秀,但时间推理(理解事件顺序、持续时间、时间间隔关系)仍是薄弱环节。TRAM、TimeBench 等基准显示即使最先进的模型在复杂时间查询上也经常出错。
- 现有痛点:现有方法依赖提示工程(CoT)、专用预训练(Temp-T5)或数学推理模块,但都缺乏显式的时间结构表示——模型在推理过程中没有明确地组织和对照时间信息。
- 核心矛盾:时间推理需要模型同时做好两件事:(a) 从文本中提取和排序时间事件;(b) 基于时间顺序做逻辑推断。单纯的 CoT 推理缺乏结构化的时间表示,容易在复杂时间依赖关系中犯错。
- 本文要解决什么? 如何让 LLM 在推理时显式构建时间线,并通过自反思来检测和修正时间推理中的不一致?
- 切入角度:受 test-time scaling 启发,通过延长推理轨迹来捕获复杂时间依赖——但不是简单地更长,而是结构化为推理→时间线→反思三个阶段。
- 核心idea一句话:让LLM在推理时显式构建事件时间线作为"脚手架",然后将推理结果对照时间线进行自反思修正,从而大幅提升时间推理准确率。
方法详解¶
整体框架¶
四阶段推理管道(可迭代): 1. Stage I - Reasoning:基于问题和时间上下文生成初始CoT推理轨迹 \(r\) 2. Stage II - Timeline Construction:从推理轨迹和上下文中提取时间事件,组织为有序时间线 \(t\) 3. Stage III - Reflection:对比推理轨迹 \(r\) 与时间线 \(t\),检测不一致/遗漏/错误,生成改进版推理 \(r'\) 4. Stage IV - Answer Generation:基于精炼推理和时间线生成最终答案
关键设计¶
- 显式时间线构建(Stage II):
- 做什么:从推理轨迹和原文中提取所有相关时间事件,按时间顺序排列
- 核心思路:将分散在文本中的时间信息聚合为一个有序结构,类似于人类在解决复杂时间问题时画时间轴
-
设计动机:时间线作为"外部记忆",使模型可以直观地对照事件的先后顺序,而不是依赖隐式的参数化记忆
-
迭代自反思(Stage III):
- 做什么:将初始推理与时间线对比,检测不一致(如事件顺序错误、遗漏关键时间点),生成修正后的推理
- 核心思路:形成推理→时间线→对照→修正的反馈循环,可反复迭代直到一致
-
设计动机:test-time scaling 的核心——通过延长推理过程来提高准确率
-
合成推理轨迹数据集:
- 做什么:从现有时间推理数据集出发,用 GPT-4 或 DeepSeek 按照 TISER 格式生成中间推理轨迹
- 核心思路:对每个样本 \((q, a, c)\),生成包含推理 \(r\)、时间线 \(t\)、反思 \(f\) 的完整轨迹。仅保留最终答案 \(a'\) 与 gold 答案 \(a\) 一致的样本
-
设计动机:确保合成的推理过程是正确的,因为只保留导向正确答案的轨迹
-
结构化输出模板:
- 使用XML标签分隔各阶段输出:
<reasoning>,<timeline>,<reflection>,<answer> - LoRA微调使模型学会按此格式输出
训练策略¶
- 基座模型:Mistral-7B, Qwen2.5-7B
- 微调方法:LoRA SFT
- 训练数据:TGQA + TempReason + TimeQA 的合成推理轨迹版本
- 数据生成器:GPT-4 或 DeepSeek V2.5
实验关键数据¶
主实验(Exact Match / F1)¶
| 模型 | 推理方式 | TGQA | TempReason L2 | TempReason L3 | TimeQA Easy | TimeQA Hard | 平均 |
|---|---|---|---|---|---|---|---|
| GPT-4 | Standard | 72.5/82.5 | 78.6/86.2 | 81.9/88.3 | 83.6/93.7 | 76.0/85.3 | 78.5/87.2 |
| GPT-4 | TISER | 82.8/93.4 | 79.8/87.2 | 84.7/91.3 | 84.4/90.5 | 77.2/86.4 | 81.8/89.8 |
| Qwen2.5-7B | Standard | 46.1/48.9 | 51.0/53.6 | 40.1/42.7 | 70.9/73.5 | 53.2/55.8 | 52.3/55.0 |
| Mistral-7B + TISER-FT (GPT-4) | TISER | 80.5/87.4 | 82.5/84.3 | 87.1/88.5 | 97.5/98.5 | 95.9/96.4 | 88.7/91.0 |
| Qwen2.5-7B + TISER-FT (GPT-4) | TISER | 84.5/94.2 | 85.5/87.5 | - | - | - | - |
消融实验¶
| 配置 | 平均 EM | 说明 |
|---|---|---|
| 完整TISER | 85.6 | 推理+时间线+反思 |
| w/o 反思 | 下降 | 无迭代修正 |
| w/o 时间线 | 下降 | 无显式时间结构 |
| Standard CoT | 55.7 | 基线标准微调 |
关键发现¶
- 7B模型超越GPT-4:TISER微调的Mistral-7B达到88.7 EM,大幅超越GPT-4的78.5 EM(+10.2)
- 时间线是核心:显式构建时间线比单纯的CoT提供了巨大的提升,因为它将隐式的时间信息外化为可检查的结构
- 自反思有效但需要时间线支撑:没有时间线作为"锚点"的自反思效果有限——反思需要一个结构化参照物
- 标准推理时也提升:TISER微调的模型即使不用TISER推理管道(Standard推理),也比标准微调的模型性能更好
- OOD泛化良好:在MultiHopRAG和Test-of-Time等未训练的基准上也保持甚至提升了性能
亮点与洞察¶
- "画时间轴"的思路极为自然和直觉——人类在解决复杂时间问题时就是这么做的。将这一认知策略转化为LLM的推理管道非常巧妙
- 合成数据的质量控制设计合理——只保留导向正确答案的推理轨迹,确保训练信号的准确性
- 小模型大幅超越大模型的结果有很强的实际意义——7B模型+TISER超越GPT-4达10+分,说明结构化推理策略比模型规模更重要
局限性 / 可改进方向¶
- 当前仅在时间推理任务上评估,TISER的思路(显式构建领域结构→自反思)可能可以迁移到空间推理等其他结构化推理任务
- 依赖GPT-4生成训练数据的质量
- 迭代反思的轮次和停止条件的设定需要更多研究
相关工作与启发¶
- vs TG-LLM (Xiong et al. 2024): TG-LLM 也关注时间推理但用CoT,本文增加了显式时间线+自反思,效果大幅提升
- vs s1 (Muennighoff et al. 2025): s1 用 budget forcing 做通用 test-time scaling,TISER 是针对时间推理的特化 test-time scaling
- vs Self-Refine (Madaan et al. 2023): Self-Refine 做通用自反思,TISER 引入了时间线作为反思的结构化参照物
评分¶
- 新颖性: ⭐⭐⭐⭐ 时间线构建+自反思的组合设计自然而有效
- 实验充分度: ⭐⭐⭐⭐⭐ 多基准(5+)、多模型、OOD评估、消融完整、7B超GPT-4的亮眼结果
- 写作质量: ⭐⭐⭐⭐ 流程清晰,算法伪代码规范
- 价值: ⭐⭐⭐⭐⭐ 提供了一种可迁移的结构化推理增强范式,开源代码和数据