Learning to Reason Over Time: Timeline Self-Reflection for Temporal Reasoning¶

会议: ACL 2025
arXiv: 2504.05258
代码: https://github.com/amazon-science/TISER
领域: LLM推理
关键词: 时间推理, 自反思, 时间线构建, Test-Time Scaling, 合成数据

一句话总结¶

提出 TISER 框架，通过"推理→时间线构建→自反思→答案生成"四阶段管道实现LLM时间推理的test-time scaling，配合合成推理轨迹数据微调，让 7B 开源模型在多个时间推理基准上超越 GPT-4，在TGQA等任务上达到 SOTA。

研究背景与动机¶

领域现状：LLM 在很多任务上表现优秀，但时间推理（理解事件顺序、持续时间、时间间隔关系）仍是薄弱环节。TRAM、TimeBench 等基准显示即使最先进的模型在复杂时间查询上也经常出错。
现有痛点：现有方法依赖提示工程（CoT）、专用预训练（Temp-T5）或数学推理模块，但都缺乏显式的时间结构表示——模型在推理过程中没有明确地组织和对照时间信息。
核心矛盾：时间推理需要模型同时做好两件事：(a) 从文本中提取和排序时间事件；(b) 基于时间顺序做逻辑推断。单纯的 CoT 推理缺乏结构化的时间表示，容易在复杂时间依赖关系中犯错。
本文要解决什么？ 如何让 LLM 在推理时显式构建时间线，并通过自反思来检测和修正时间推理中的不一致？
切入角度：受 test-time scaling 启发，通过延长推理轨迹来捕获复杂时间依赖——但不是简单地更长，而是结构化为推理→时间线→反思三个阶段。
核心idea一句话：让LLM在推理时显式构建事件时间线作为"脚手架"，然后将推理结果对照时间线进行自反思修正，从而大幅提升时间推理准确率。

方法详解¶

整体框架¶

四阶段推理管道（可迭代）： 1. Stage I - Reasoning：基于问题和时间上下文生成初始CoT推理轨迹 \(r\) 2. Stage II - Timeline Construction：从推理轨迹和上下文中提取时间事件，组织为有序时间线 \(t\) 3. Stage III - Reflection：对比推理轨迹 \(r\) 与时间线 \(t\)，检测不一致/遗漏/错误，生成改进版推理 \(r'\) 4. Stage IV - Answer Generation：基于精炼推理和时间线生成最终答案

关键设计¶

显式时间线构建（Stage II）:
做什么：从推理轨迹和原文中提取所有相关时间事件，按时间顺序排列
核心思路：将分散在文本中的时间信息聚合为一个有序结构，类似于人类在解决复杂时间问题时画时间轴
设计动机：时间线作为"外部记忆"，使模型可以直观地对照事件的先后顺序，而不是依赖隐式的参数化记忆
迭代自反思（Stage III）:
做什么：将初始推理与时间线对比，检测不一致（如事件顺序错误、遗漏关键时间点），生成修正后的推理
核心思路：形成推理→时间线→对照→修正的反馈循环，可反复迭代直到一致
设计动机：test-time scaling 的核心——通过延长推理过程来提高准确率
合成推理轨迹数据集:
做什么：从现有时间推理数据集出发，用 GPT-4 或 DeepSeek 按照 TISER 格式生成中间推理轨迹
核心思路：对每个样本 \((q, a, c)\)，生成包含推理 \(r\)、时间线 \(t\)、反思 \(f\) 的完整轨迹。仅保留最终答案 \(a'\) 与 gold 答案 \(a\) 一致的样本
设计动机：确保合成的推理过程是正确的，因为只保留导向正确答案的轨迹
结构化输出模板:
使用XML标签分隔各阶段输出：<reasoning>, <timeline>, <reflection>, <answer>
LoRA微调使模型学会按此格式输出

训练策略¶

基座模型：Mistral-7B, Qwen2.5-7B
微调方法：LoRA SFT
训练数据：TGQA + TempReason + TimeQA 的合成推理轨迹版本
数据生成器：GPT-4 或 DeepSeek V2.5

实验关键数据¶

主实验（Exact Match / F1）¶

模型	推理方式	TGQA	TempReason L2	TempReason L3	TimeQA Easy	TimeQA Hard	平均
GPT-4	Standard	72.5/82.5	78.6/86.2	81.9/88.3	83.6/93.7	76.0/85.3	78.5/87.2
GPT-4	TISER	82.8/93.4	79.8/87.2	84.7/91.3	84.4/90.5	77.2/86.4	81.8/89.8
Qwen2.5-7B	Standard	46.1/48.9	51.0/53.6	40.1/42.7	70.9/73.5	53.2/55.8	52.3/55.0
Mistral-7B + TISER-FT (GPT-4)	TISER	80.5/87.4	82.5/84.3	87.1/88.5	97.5/98.5	95.9/96.4	88.7/91.0
Qwen2.5-7B + TISER-FT (GPT-4)	TISER	84.5/94.2	85.5/87.5	-	-	-	-

消融实验¶

配置	平均 EM	说明
完整TISER	85.6	推理+时间线+反思
w/o 反思	下降	无迭代修正
w/o 时间线	下降	无显式时间结构
Standard CoT	55.7	基线标准微调

关键发现¶

7B模型超越GPT-4：TISER微调的Mistral-7B达到88.7 EM，大幅超越GPT-4的78.5 EM（+10.2）
时间线是核心：显式构建时间线比单纯的CoT提供了巨大的提升，因为它将隐式的时间信息外化为可检查的结构
自反思有效但需要时间线支撑：没有时间线作为"锚点"的自反思效果有限——反思需要一个结构化参照物
标准推理时也提升：TISER微调的模型即使不用TISER推理管道（Standard推理），也比标准微调的模型性能更好
OOD泛化良好：在MultiHopRAG和Test-of-Time等未训练的基准上也保持甚至提升了性能

亮点与洞察¶

"画时间轴"的思路极为自然和直觉——人类在解决复杂时间问题时就是这么做的。将这一认知策略转化为LLM的推理管道非常巧妙
合成数据的质量控制设计合理——只保留导向正确答案的推理轨迹，确保训练信号的准确性
小模型大幅超越大模型的结果有很强的实际意义——7B模型+TISER超越GPT-4达10+分，说明结构化推理策略比模型规模更重要

局限性 / 可改进方向¶

当前仅在时间推理任务上评估，TISER的思路（显式构建领域结构→自反思）可能可以迁移到空间推理等其他结构化推理任务
依赖GPT-4生成训练数据的质量
迭代反思的轮次和停止条件的设定需要更多研究

评分¶

新颖性: ⭐⭐⭐⭐ 时间线构建+自反思的组合设计自然而有效
实验充分度: ⭐⭐⭐⭐⭐ 多基准(5+)、多模型、OOD评估、消融完整、7B超GPT-4的亮眼结果
写作质量: ⭐⭐⭐⭐ 流程清晰，算法伪代码规范
价值: ⭐⭐⭐⭐⭐ 提供了一种可迁移的结构化推理增强范式，开源代码和数据