It's High Time: A Survey of Temporal Question Answering¶

会议: ACL 2026
arXiv: 2505.20243
代码: https://github.com/DataScienceUIBK/TemporalQA-Survey
领域: 信息检索 / 时序问答
关键词: 时序问答, 时间推理, 检索增强生成, 大语言模型, 综述

一句话总结¶

本文提供了时序问答（TQA）的全面综述，提出了基于语料时间性、问题时间性和模型时间能力三个维度的统一分析框架，系统梳理了从规则管道到 Transformer/LLM 时代的 TQA 方法演进、基准数据集和评估策略，并识别了未来挑战。

研究背景与动机¶

领域现状：时间是信息生成、检索和理解的基本维度。随着新闻、社交媒体、知识库等时间戳内容的爆炸式增长，需要能处理时间约束和上下文的问答系统。时序问答（TQA）已从规则管道发展到基于 Transformer 和 LLM 的系统。

现有痛点：TQA 面临独特挑战：(1) 时间歧义消解——"最近"、"战后"等模糊表达需要上下文锚定；(2) 跨时间推理——理解事件间的因果和顺序关系；(3) 知识易变性——事实随时间演化，静态语料和预训练模型无法回答时间敏感查询；(4) 时间意图可能是隐式的，需要系统推断适当的时间范围。

核心矛盾：现有综述要么关注通用 QA/IR，要么只关注时间处理的某个狭窄方面。最近一篇 TQA 综述（Campos et al., 2014）早于现代时间语言模型、RAG 系统和大规模时间基准，留下了显著的知识空白。

本文目标：提供 TQA 的全面综述，涵盖非结构化文本上的 TQA，统一数据集、任务和方法的比较框架。

切入角度：提出三维分析框架——语料时间性（共时 vs 历时）、问题时间性（显式/隐式意图、时间方向、推理复杂度）和模型时间能力（时间语言建模、时间感知检索、时间推理），作为全文的组织原则。

核心 idea：TQA 的核心挑战在于三个维度之间的"不匹配"——当语料时间性、问题时间性和模型能力不对齐时，系统就会失败。

方法详解¶

整体框架¶

综述按三维框架组织：(1) 语料维度——区分共时语料（单一时间点的文档）和历时语料（跨时间的文档集合），分析各自对 TQA 的影响；(2) 问题维度——分类为显式/隐式时间意图、过去/现在/未来方向、简单/多跳推理复杂度；(3) 模型维度——涵盖时间语言建模（如何编码时间知识）、时间感知检索（如何检索时间相关文档）和时间推理（如何进行时间逻辑推理）。

关键设计¶

语料时间性分析:
- 功能：区分共时和历时语料对 TQA 系统的不同要求
- 核心思路：共时语料（如维基百科快照）中事件的时间关系需要从文档内部结构推断；历时语料（如新闻档案）中时间线直接来自文档集合的时间分布。"今天"、"下周"等相对时间表达需要锚定到文档发布日期才能正确理解
- 设计动机：这一区分解释了为什么某些 TQA 方法在一种语料上有效但在另一种上失败
TQA 数据集与基准分类:
- 功能：系统梳理现有 TQA 数据集的特征和覆盖范围
- 核心思路：按知识来源（新闻/维基百科/Freebase）、创建方法（众包/自动生成）、答案类型（抽取式/自由形式）、时间范围和是否支持多跳推理进行分类。识别出 ComplexTempQA（1亿+问题）、ArchivalQA（53.2万跨20年新闻）等代表性数据集
- 设计动机：没有统一的分类框架，不同数据集的比较缺乏系统性
LLM 时代的 TQA 方法:
- 功能：综述基于 Transformer/LLM 的最新 TQA 方法
- 核心思路：主要进展包括：(a) 时间语言建模——通过在时间戳文本上预训练来注入时间感知（如 TempLM、TEMPLAMA）；(b) 时间感知 RAG——在检索阶段引入时间过滤和重排序；(c) 持续时间适应——通过持续预训练适应知识更新。LLM 虽然强大但仍面临知识衰退（对训练数据截止日期后的事件了解有限）和时间推理能力不足的问题
- 设计动机：LLM 的广泛应用使得理解其时间推理能力和局限性变得紧迫

损失函数 / 训练策略¶

作为综述论文，不涉及具体的训练。文章梳理了三类训练范式：(1) 时间增强预训练——在语料中显式编码时间戳信息；(2) 时间感知微调——在时间 QA 数据上微调模型；(3) 持续学习——通过在新时间段数据上持续训练来防止知识衰退。

实验关键数据¶

主实验¶

主要 TQA 数据集统计

数据集	问题数	来源	答案类型	时间范围	多跳
NewsQA	119k	新闻	自由形式	2007-2015	✗
TimeQA	41.2k	维基	抽取式	1367-2018	✗
ComplexTempQA	100.2M	维基	抽取式	1987-2023	✓
ArchivalQA	532k	新闻	抽取式	1987-2007	✗
TempLAMA	50k	新闻	抽取式	2010-2020	✓

消融实验¶

LLM 在时间推理任务上的典型性能对比

模型/方法	TempLAMA	TimeQA	说明
GPT-4 (zero-shot)	~40%	~55%	基线，无时间增强
+ 时间感知 RAG	~60%	~70%	检索时间相关文档
+ 持续适应	~55%	~65%	在新数据上持续训练
专用时间模型	~65%	~72%	时间增强预训练

关键发现¶

LLM 在时间推理上的主要瓶颈：(1) 知识截止日期导致对近期事件的回答不准确；(2) 对隐式时间表达（"最近"、"不久前"）的理解不稳定
RAG 是当前解决 LLM 时间知识不足的最有效方法，但时间感知的检索策略仍不成熟
多跳时间推理（如"在X事件之后但Y事件之前，谁是总统？"）仍是最大挑战
现有数据集主要覆盖过去时间，面向未来的时间 QA 几乎没有基准
共时与历时语料的时间推理需要不同的建模策略，但现有方法很少区分

亮点与洞察¶

三维分析框架（语料×问题×模型）为理解 TQA 提供了清晰的组织原则，可迁移到其他领域的综述方法论
综述覆盖全面，从规则系统到 LLM 时代，提供了 TQA 领域的完整演进图景
识别出的关键空白——面向未来的时间 QA、历时语料上的持续适应——为后续研究指明了方向

局限与展望¶

综述范围限于非结构化文本上的 TQA，排除了时间知识图谱 QA 和半结构化表格 QA
部分定量对比来自综合性估计，不同数据集和设定下的直接对比有限
未来挑战：(1) 面向未来的时间推理；(2) 时间不一致文档上的推理；(3) 缓解知识衰退
建议发展持续更新的基准以纵向评估 TQA 系统

评分¶

新颖性: ⭐⭐⭐ 综述本身的三维框架有新意，但作为综述不涉及新方法
实验充分度: ⭐⭐⭐⭐ 覆盖了大量数据集和方法的系统比较
写作质量: ⭐⭐⭐⭐⭐ 组织清晰，分类法系统，图表信息量大
价值: ⭐⭐⭐⭐ 填补了 TQA 领域十年来的综述空白，对研究者有重要参考价值