UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization¶

会议: ACL 2025
arXiv: 2407.03525
代码: 无（数据集在HuggingFace: nurakib/UnSeenTimeQA）
领域: LLM/NLP
关键词: 时间敏感问答、时序推理、数据污染、合成事实、基准评测

一句话总结¶

提出UnSeenTimeQA——一个基于合成事实（而非真实世界事件）的时间敏感问答基准，通过避免网络可搜索的查询来消除数据污染风险，设计了三类时间推理问题来评估LLM的真实时序推理能力，发现LLM在长程事件依赖和并行事件推理上表现较差。

研究背景与动机¶

领域现状：时间敏感问答（Time-Sensitive Question-Answering, TSQA）是评估LLM时序推理能力的重要任务。已有基准如TimeQA、SituatedQA、TempReason等通过真实世界的时间相关事实来测试模型——例如"2020年美国总统是谁"这类需要关联时间和事实的问题。

现有痛点：现有TSQA基准存在根本性问题——它们基于真实世界事实，而这些事实几乎都可以在网上搜索到。LLM在预训练阶段很可能已经"见过"这些问题或相关信息，导致模型可以通过记忆而非真正的时序推理来回答问题。这就是数据污染问题——测试数据泄漏到训练数据中，使得评估结果不能真实反映模型的推理能力。

核心矛盾：我们想测试的是LLM的时间推理能力（给定一系列事件的时间关系，能否正确推理出答案），但现有基准实际测试的可能是记忆能力（模型是否在训练时见过这个事实）。这两种能力被混淆在一起，无法分离。

本文目标：构建一个完全消除数据污染风险的TSQA基准，使得LLM必须依赖真正的时序推理能力来回答问题，而不能依赖预训练阶段记忆的事实知识。

切入角度：使用合成生成的虚构事实场景代替真实世界事件。这些场景不存在于任何网页上，LLM不可能在预训练时见过，因此回答只能依赖推理。同时，数据生成框架支持按需生成新样本，即使测试集泄漏也可以重新生成。

核心 idea：用合成事实场景+系统化的时间问题类型，构建一个LLM无法"作弊"的时间推理基准，从而真正评估其时序推理能力。

方法详解¶

整体框架¶

UnSeenTimeQA包含两个核心组件：(1) 数据生成框架——自动生成基于虚构事实的时间敏感事件场景及对应问题；(2) 评估框架——在多种LLM上评估不同类型时间推理问题的表现。输入为一段描述虚构人物/事件的时间线和相关问题，输出为LLM的答案，通过与ground truth比较来评估准确率。

关键设计¶

合成事实生成框架:
- 功能：生成数据污染免疫的时间敏感问答数据
- 核心思路：框架使用虚构的人名、组织名、地点名和事件，构建时间线叙事。每个场景包含多个事件及其发生时间（精确到年/月/日），事件之间存在顺序和重叠关系。例如，虚构人物"X在2015-2018年在A公司工作，2017-2020年在B城市居住"等场景。关键设计是所有实体和事实都是虚构的，不对应任何真实世界的人物或事件。生成过程参数化，支持控制事件数量、时间跨度、并行事件比例等，可按需生成任意数量的新样本。
- 设计动机：现有基准的根本问题是使用真实事实，无法排除数据污染。合成事实从根源上解决了这个问题，同时参数化生成确保了可复现性和可扩展性。
三类时间敏感问题设计:
- 功能：全面测试LLM不同层次的时序推理能力
- 核心思路：设计了三种递增难度的问题类型——(a) 简单时间问题（Easy/Simple）：直接询问某事件的发生时间或某一时间点的状态，如"X在什么时间开始在A公司工作？"只需定位对应事件即可回答；(b) 顺序事件问题（Sequential）：涉及多个按时间顺序排列的事件间的推理，需要比较不同事件的时间关系，如"X是先加入A公司还是先搬到B城市？"需要比较两个事件的起始时间；(c) 并行事件问题（Parallel）：涉及时间上重叠的事件的推理，如"X在B城市居住期间是否还在A公司工作？"需要判断两个事件时间窗口是否有交集，以及处理长程事件依赖关系。
- 设计动机：真实世界的时间推理涉及不同复杂度——从简单的事件定位到复杂的多事件时序关系推理。分层设计可以精确定位LLM在哪个层次上遇到困难。
数据污染免疫机制:
- 功能：确保评估结果反映真实推理能力
- 核心思路：除了使用合成事实外，框架还内置了多重防线——(a) 支持按需重新生成数据集，即使某版本泄露也可以用新版本替换；(b) 生成过程中使用随机化（名称、时间、事件组合），确保两次生成的数据不完全重合；(c) 提供了"新鲜度检验"——如果模型在合成事实上的表现显著高于预期，可能暗示数据泄露，需要更新数据。
- 设计动机：数据污染是当前LLM评估的最大威胁之一。即使当前版本安全，未来也可能泄露。按需生成能力确保了基准的长期有效性。

损失函数 / 训练策略¶

本文是基准评测工作，不涉及模型训练。评估使用zero-shot和few-shot设置在多个LLM上进行。

实验关键数据¶

主实验¶

模型	Easy子集	Sequential子集	Parallel子集	总体
GPT-4o	较高（~70%+）	中等（~55%）	较低（~40%）	~55%
GPT-3.5	中等（~60%）	中等（~45%）	低（~30%）	~45%
Llama3-70B	中等（~55%）	中低（~40%）	低（~25%）	~40%
Llama3-8B	中低（~45%）	低（~30%）	很低（~20%）	~30%
真实事实TSQA	高（~80%+）	高（~70%+）	较高（~60%+）	~70%

消融实验¶

配置	准确率	说明
合成事实 TSQA	~55%	本文核心评估结果
真实事实 TSQA	~70%	同模型在传统TSQA上表现
差值	~15%	记忆贡献的估计值
短程事件依赖	较高	涉及2-3个事件的推理
长程事件依赖	明显下降	涉及5+个事件的推理
单事件时间窗口	较高	无重叠的简单场景
多事件时间重叠	明显下降	有重叠的复杂场景

关键发现¶

LLM在合成事实上的表现显著低于真实事实的TSQA：这一差距直接证明了现有TSQA基准中存在数据污染问题——LLM在传统基准上的高表现部分来自记忆而非推理
并行事件推理是最大难点：涉及时间重叠的事件推理（如"X在A工作期间是否也在B学习？"）对所有LLM都构成严峻挑战，准确率显著低于简单问题
长程事件依赖导致性能下降：当推理链涉及多个连续事件时，LLM的表现随事件数量增加而递减，暗示其时序推理能力有限
模型规模有帮助但不能解决根本问题：GPT-4o优于GPT-3.5优于小模型，但即使最强模型在并行事件上也表现不佳
few-shot示例的帮助有限：提供少量示例对简单问题有帮助，但对复杂时序推理的改善有限

亮点与洞察¶

合成事实消除数据污染的设计是本文最核心的贡献——这一思路不仅适用于时间推理，还可以推广到其他需要排除记忆干扰的推理评估场景（如空间推理、因果推理等）
三层难度的问题设计巧妙地诊断出了LLM时序推理的具体弱点：不是不懂时间概念，而是在处理复杂的多事件时间关系（特别是并行和重叠）时出现困难
按需生成的设计使得数据集具有"永不过期"的特性——这在当前LLM数据污染泛滥的背景下尤为珍贵

局限与展望¶

合成事实场景相对简单、缺乏真实世界的复杂性和模糊性，可能低估了LLM对真实时间推理的需求
事件场景的模板化生成可能引入模式偏差——LLM可能学到"这类格式的文本通常对应什么答案"
仅评估了5-6个LLM，未涵盖最新的模型（如Claude 3.5、Gemini等）
未探索CoT等推理增强方法对时序推理的改善效果
未来可以增加更多类型的时间推理（如周期性事件、模糊时间表达、时间间隔计算），也可以结合知识图谱构建更丰富的事件网络

评分¶

新颖性: ⭐⭐⭐⭐ 合成事实消除数据污染是极好的idea，但合成基准的思路本身已有先例
实验充分度: ⭐⭐⭐⭐ 多模型评估、error analysis较为详尽，但模型覆盖面可以更广
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述清楚，但部分细节（如生成框架实现）可以更详细
价值: ⭐⭐⭐⭐ 为时间推理评估提供了更可靠的基准，揭示了LLM时序推理的真实短板