Temporal Reasoning for Timeline Summarisation in Social Media¶
会议: ACL 2025
arXiv: 2501.00152
代码: 无
领域: NLP理解
关键词: 时序推理, 时间线摘要, 知识蒸馏, 社交媒体, 心理健康
一句话总结¶
本文提出通过构建新的叙事时序推理数据集 NarrativeReason 来增强 LLM 的时序推理能力,并通过知识蒸馏框架将时序推理知识迁移到小模型中,同时训练其完成时间线摘要任务,在跨域心理健康摘要任务上取得最优效果并显著减少幻觉。
研究背景与动机¶
-
领域现状: 时间线摘要(Timeline Summarisation)任务需要从长文本(如社交媒体帖子序列)中提取事件序列并生成连贯摘要。现有方法通常构建事件图或聚类事件时间线来识别相关事件。
-
现有痛点: 社交媒体中的心理健康相关帖子存在特殊挑战——事件缺乏明确时间戳,需要上下文推断时间顺序;心理状态事件难以识别;模型容易产生幻觉。现有时序推理研究主要关注提升 LLM 的时序推理能力本身,但未探索如何将其用于改善下游任务。
-
核心矛盾: 时序推理和时间线摘要之间存在明确联系(时序推理有助于维持时间一致性和正确的事件顺序),但现有研究将两者割裂。此外,现有时序推理数据集主要处理成对事件关系,而非叙事中多事件之间的复杂时序关系。
-
本文目标: 如何将增强的时序推理能力有效传递给下游的时间线摘要任务?如何在跨域场景下(训练在新闻域、测试在心理健康域)保持性能?
-
切入角度: 作者假设现有时序推理数据集(成对事件)导致模型学习了捷径而非真正理解时序关系,因此构建了基于叙事的多事件时序推理数据集,并通过知识蒸馏桥接时序推理与摘要任务。
-
核心 idea: 用叙事级时序推理数据增强大模型,再通过知识蒸馏将时序理解能力注入小模型的摘要生成过程。
方法详解¶
整体框架¶
方法分为两个阶段。阶段1:在新构建的 NarrativeReason 数据集上微调大模型(Teacher,如 LLaMA-3)以增强其时序推理能力。阶段2:冻结 Teacher 参数,用小模型(Student,Phi-3-mini)在新闻时间线摘要数据集上微调,同时通过知识蒸馏从 Teacher 获取时序推理知识。最终在心理健康领域的社交媒体时间线上测试摘要质量。
关键设计¶
-
NarrativeReason 数据集构建:
- 功能:提供多事件叙事级时序推理训练数据
- 核心思路:基于 NarrativeTime 数据集重构,从中提取动词触发的事件三元组(如
<印尼股市价值, 下跌, 12%>),然后构建叙事中所有事件之间的时序关系问答对。共从 30 篇文章中提取 668 个事件,生成 19,614 个时序关系问答对。问题格式为"根据故事判断事件A和事件B的时序关系(BEFORE/AFTER/INCLUDES/SIMULTANEOUS)" - 设计动机:现有数据集(如 TEMPLAMA)仅处理成对事件,模型可能通过记忆高频答案来"作弊"。多事件序列推理需要识别模式、依赖关系和因果链,更接近真实的摘要任务需求
-
三种知识蒸馏策略:
- 功能:将 Teacher 的时序推理知识迁移到 Student
- 核心思路:采用三种互补的蒸馏方法——(1) NST(Neuron Selectivity Transfer):用 MMD 匹配 Teacher 和 Student 最后隐层的神经元激活模式分布;(2) CRD(Contrastive Representation Distillation):通过对比学习最大化 Teacher 和 Student 表示之间的互信息;(3) PRT(Probabilistic Knowledge Transfer):用 KL 散度匹配 Teacher 和 Student 输出 logits 的条件概率分布,使用余弦相似度核函数
- 设计动机:不同蒸馏策略捕获不同层面的知识。实验发现 NST+PRT 组合效果最好,因为它们都关注结构一致性,而 CRD 关注实例区分,对时序推理任务不太适合
-
跨域生成心理健康摘要:
- 功能:验证时序推理能力的可迁移性
- 核心思路:Student 在新闻域摘要数据上训练,但直接应用于心理健康领域的 TalkLife 数据。使用 Song et al. (2024) 定义的格式,从三个临床概念维度(诊断、人际关系、变化时刻)生成摘要
- 设计动机:跨域设置更能验证时序推理作为一般能力的迁移性,而非简单的域内过拟合
损失函数 / 训练策略¶
Student 模型的总损失由语言建模损失 \(L_{language}\)(用于时间线摘要的 next token prediction)和知识蒸馏损失(\(L_{PKT}\), \(L_{MMD^2}\), \(L_{CRD}\))组合而成。Teacher 使用 LoRA 做 SFT 微调。
实验关键数据¶
主实验¶
| 模型配置 | FC (事实一致性) | EA (证据匹配度) |
|---|---|---|
| P-Phi (NST&PRT) | 0.438 | 0.973 |
| L-Phi (NST&PRT) | 0.424 | 0.971 |
| Phi_ICL | 0.412 | 0.965 |
| TH-VAE (之前SOTA) | 0.378 | 0.970 |
| LLaMA (zero-shot) | 0.372 | 0.956 |
| KD_origin | 0.332 | 0.967 |
| KD_timeline | 0.330 | 0.965 |
| Phi_joint | 0.238 | 0.941 |
| Phi_tl | 0.184 | 0.966 |
| Phi_temp | 0.141 | 0.895 |
消融实验¶
| 配置 | FC | EA | 说明 |
|---|---|---|---|
| P-Phi (NST&PRT) | 0.438 | 0.973 | 最佳组合 |
| P-Phi (PRT only) | 0.378 | 0.965 | 单一PRT |
| P-Phi (NST only) | 0.344 | 0.968 | 单一NST |
| P-Phi (CRD only) | 0.369 | 0.954 | 单一CRD |
| P-Phi (NST&CRD) | 0.397 | 0.969 | NST+CRD组合 |
人类评估(5分Likert量表):
| 评估维度 | Phi | P-Phi | LLaMA | L-Phi |
|---|---|---|---|---|
| 事实一致性 | 2.90 | 3.32 | 3.58 | 3.83 |
| 有用性(综合) | 2.60 | 3.13 | 3.17 | 3.48 |
| 诊断 | 2.90 | 3.37 | 3.45 | 3.62 |
| 人际关系 | 2.95 | 3.00 | 3.40 | 3.51 |
| 变化时刻 | 2.97 | 2.97 | 3.42 | 3.47 |
关键发现¶
- NST+PRT 组合最佳,因为两者都关注结构一致性(分布匹配),而 CRD 关注实例区分,不太适合时序推理任务
- 单独在时序推理数据上微调(Phi_temp)反而严重损害摘要能力(FC=0.141),但通过 KD 引入则显著提升
- 直接混合训练(Phi_joint)也不行(FC=0.238),说明朴素多任务学习无法有效整合两种能力
- L-Phi(大Teacher LLaMA→小Student Phi)在人类评估中全面优于 P-Phi(小Teacher Phi→小Student Phi),说明更大的 Teacher 确实有益
- KD 模型通过 UMAP 可视化显示更多多义性激活(polysemantic activations),CKA 分析表明 KD 模型更好地保持和精炼了输入信息
亮点与洞察¶
- 叙事级时序推理的构思很精巧:不是简单的成对事件关系,而是在叙事上下文中推理多事件的时序结构,更接近真实摘要场景需求
- KD 优于 joint training 的深层原因分析:通过 UMAP 和 CKA 分析揭示了 KD 如何帮助模型学习更好的表征——KD 模型层间逐步精炼信息,而 joint 模型早早饱和
- 跨域迁移验证了时序推理的通用性:在新闻域训练但在心理健康域仍然有效,说明时序推理是一种可迁移的基础能力
局限与展望¶
- 模型倾向于给出具体的 DSM 诊断(如 PTSD、双相障碍),而非更审慎的表述(应该说"有证据表明可能存在...")
- 摘要内容偏通用化,缺少个性化分析的深度
- NarrativeReason 数据集规模有限(30 篇文章),可扩展到更大规模
- MoC(变化时刻)维度改善有限,可能需要专门的设计
相关工作与启发¶
- vs TH-VAE (Song et al. 2024): TH-VAE 先用 VAE 提取心理健康相关证据再生成摘要,本文直接使用标注证据生成高层摘要,重点验证时序推理的作用
- vs TEMPREASON (Tan et al. 2023): TEMPREASON 处理成对事件关系,本文的 NarrativeReason 处理叙事级多事件关系,更适合下游任务
- 知识蒸馏用于跨任务能力迁移的思路可以推广到其他"基础能力→下游任务"的场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 将时序推理通过KD注入摘要任务的框架设计较新颖,但KD本身是成熟技术
- 实验充分度: ⭐⭐⭐⭐ 自动评估+人类评估+表征分析,三种KD策略的全面比较,消融充分
- 写作质量: ⭐⭐⭐⭐ 动机链清晰,方法图直观,但公式部分LaTeX渲染较冗长
- 价值: ⭐⭐⭐⭐ 时序推理提升摘要质量的思路有一定通用性,但仅在单一测试集(30条 TalkLife 时间线)上验证
相关论文¶
- [ACL 2025] Learning to Reason Over Time: Timeline Self-Reflection for Temporal Reasoning
- [ACL 2025] Graphically Speaking: Unmasking Abuse in Social Media with Conversation Insights
- [ACL 2025] Narrative Media Framing in Political Discourse
- [ACL 2025] RePanda: Pandas-powered Tabular Verification and Reasoning
- [ACL 2025] Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos