跳转至

Learning to Reason Over Time: Timeline Self-Reflection for Temporal Reasoning

会议: ACL 2025
arXiv: 2504.05258
代码: https://github.com/amazon-science/TISER
领域: LLM推理
关键词: 时间推理, 自反思, 时间线构建, Test-Time Scaling, 合成数据

一句话总结

提出 TISER 框架,通过"推理→时间线构建→自反思→答案生成"四阶段管道实现LLM时间推理的test-time scaling,配合合成推理轨迹数据微调,让 7B 开源模型在多个时间推理基准上超越 GPT-4,在TGQA等任务上达到 SOTA。

研究背景与动机

  1. 领域现状:LLM 在很多任务上表现优秀,但时间推理(理解事件顺序、持续时间、时间间隔关系)仍是薄弱环节。TRAM、TimeBench 等基准显示即使最先进的模型在复杂时间查询上也经常出错。
  2. 现有痛点:现有方法依赖提示工程(CoT)、专用预训练(Temp-T5)或数学推理模块,但都缺乏显式的时间结构表示——模型在推理过程中没有明确地组织和对照时间信息。
  3. 核心矛盾:时间推理需要模型同时做好两件事:(a) 从文本中提取和排序时间事件;(b) 基于时间顺序做逻辑推断。单纯的 CoT 推理缺乏结构化的时间表示,容易在复杂时间依赖关系中犯错。
  4. 本文要解决什么? 如何让 LLM 在推理时显式构建时间线,并通过自反思来检测和修正时间推理中的不一致?
  5. 切入角度:受 test-time scaling 启发,通过延长推理轨迹来捕获复杂时间依赖——但不是简单地更长,而是结构化为推理→时间线→反思三个阶段。
  6. 核心idea一句话:让LLM在推理时显式构建事件时间线作为"脚手架",然后将推理结果对照时间线进行自反思修正,从而大幅提升时间推理准确率。

方法详解

整体框架

四阶段推理管道(可迭代): 1. Stage I - Reasoning:基于问题和时间上下文生成初始CoT推理轨迹 \(r\) 2. Stage II - Timeline Construction:从推理轨迹和上下文中提取时间事件,组织为有序时间线 \(t\) 3. Stage III - Reflection:对比推理轨迹 \(r\) 与时间线 \(t\),检测不一致/遗漏/错误,生成改进版推理 \(r'\) 4. Stage IV - Answer Generation:基于精炼推理和时间线生成最终答案

关键设计

  1. 显式时间线构建(Stage II):
  2. 做什么:从推理轨迹和原文中提取所有相关时间事件,按时间顺序排列
  3. 核心思路:将分散在文本中的时间信息聚合为一个有序结构,类似于人类在解决复杂时间问题时画时间轴
  4. 设计动机:时间线作为"外部记忆",使模型可以直观地对照事件的先后顺序,而不是依赖隐式的参数化记忆

  5. 迭代自反思(Stage III):

  6. 做什么:将初始推理与时间线对比,检测不一致(如事件顺序错误、遗漏关键时间点),生成修正后的推理
  7. 核心思路:形成推理→时间线→对照→修正的反馈循环,可反复迭代直到一致
  8. 设计动机:test-time scaling 的核心——通过延长推理过程来提高准确率

  9. 合成推理轨迹数据集:

  10. 做什么:从现有时间推理数据集出发,用 GPT-4 或 DeepSeek 按照 TISER 格式生成中间推理轨迹
  11. 核心思路:对每个样本 \((q, a, c)\),生成包含推理 \(r\)、时间线 \(t\)、反思 \(f\) 的完整轨迹。仅保留最终答案 \(a'\) 与 gold 答案 \(a\) 一致的样本
  12. 设计动机:确保合成的推理过程是正确的,因为只保留导向正确答案的轨迹

  13. 结构化输出模板:

  14. 使用XML标签分隔各阶段输出:<reasoning>, <timeline>, <reflection>, <answer>
  15. LoRA微调使模型学会按此格式输出

训练策略

  • 基座模型:Mistral-7B, Qwen2.5-7B
  • 微调方法:LoRA SFT
  • 训练数据:TGQA + TempReason + TimeQA 的合成推理轨迹版本
  • 数据生成器:GPT-4 或 DeepSeek V2.5

实验关键数据

主实验(Exact Match / F1)

模型 推理方式 TGQA TempReason L2 TempReason L3 TimeQA Easy TimeQA Hard 平均
GPT-4 Standard 72.5/82.5 78.6/86.2 81.9/88.3 83.6/93.7 76.0/85.3 78.5/87.2
GPT-4 TISER 82.8/93.4 79.8/87.2 84.7/91.3 84.4/90.5 77.2/86.4 81.8/89.8
Qwen2.5-7B Standard 46.1/48.9 51.0/53.6 40.1/42.7 70.9/73.5 53.2/55.8 52.3/55.0
Mistral-7B + TISER-FT (GPT-4) TISER 80.5/87.4 82.5/84.3 87.1/88.5 97.5/98.5 95.9/96.4 88.7/91.0
Qwen2.5-7B + TISER-FT (GPT-4) TISER 84.5/94.2 85.5/87.5 - - - -

消融实验

配置 平均 EM 说明
完整TISER 85.6 推理+时间线+反思
w/o 反思 下降 无迭代修正
w/o 时间线 下降 无显式时间结构
Standard CoT 55.7 基线标准微调

关键发现

  • 7B模型超越GPT-4:TISER微调的Mistral-7B达到88.7 EM,大幅超越GPT-4的78.5 EM(+10.2)
  • 时间线是核心:显式构建时间线比单纯的CoT提供了巨大的提升,因为它将隐式的时间信息外化为可检查的结构
  • 自反思有效但需要时间线支撑:没有时间线作为"锚点"的自反思效果有限——反思需要一个结构化参照物
  • 标准推理时也提升:TISER微调的模型即使不用TISER推理管道(Standard推理),也比标准微调的模型性能更好
  • OOD泛化良好:在MultiHopRAG和Test-of-Time等未训练的基准上也保持甚至提升了性能

亮点与洞察

  • "画时间轴"的思路极为自然和直觉——人类在解决复杂时间问题时就是这么做的。将这一认知策略转化为LLM的推理管道非常巧妙
  • 合成数据的质量控制设计合理——只保留导向正确答案的推理轨迹,确保训练信号的准确性
  • 小模型大幅超越大模型的结果有很强的实际意义——7B模型+TISER超越GPT-4达10+分,说明结构化推理策略比模型规模更重要

局限性 / 可改进方向

  • 当前仅在时间推理任务上评估,TISER的思路(显式构建领域结构→自反思)可能可以迁移到空间推理等其他结构化推理任务
  • 依赖GPT-4生成训练数据的质量
  • 迭代反思的轮次和停止条件的设定需要更多研究

相关工作与启发

  • vs TG-LLM (Xiong et al. 2024): TG-LLM 也关注时间推理但用CoT,本文增加了显式时间线+自反思,效果大幅提升
  • vs s1 (Muennighoff et al. 2025): s1 用 budget forcing 做通用 test-time scaling,TISER 是针对时间推理的特化 test-time scaling
  • vs Self-Refine (Madaan et al. 2023): Self-Refine 做通用自反思,TISER 引入了时间线作为反思的结构化参照物

评分

  • 新颖性: ⭐⭐⭐⭐ 时间线构建+自反思的组合设计自然而有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 多基准(5+)、多模型、OOD评估、消融完整、7B超GPT-4的亮眼结果
  • 写作质量: ⭐⭐⭐⭐ 流程清晰,算法伪代码规范
  • 价值: ⭐⭐⭐⭐⭐ 提供了一种可迁移的结构化推理增强范式,开源代码和数据