Temporal Reasoning for Timeline Summarisation in Social Media¶

会议: ACL 2025
arXiv: 2501.00152
代码: 无
领域: NLP理解
关键词: 时序推理, 时间线摘要, 知识蒸馏, 社交媒体, 心理健康

一句话总结¶

本文提出通过构建新的叙事时序推理数据集 NarrativeReason 来增强 LLM 的时序推理能力，并通过知识蒸馏框架将时序推理知识迁移到小模型中，同时训练其完成时间线摘要任务，在跨域心理健康摘要任务上取得最优效果并显著减少幻觉。

研究背景与动机¶

领域现状: 时间线摘要（Timeline Summarisation）任务需要从长文本（如社交媒体帖子序列）中提取事件序列并生成连贯摘要。现有方法通常构建事件图或聚类事件时间线来识别相关事件。
现有痛点: 社交媒体中的心理健康相关帖子存在特殊挑战——事件缺乏明确时间戳，需要上下文推断时间顺序；心理状态事件难以识别；模型容易产生幻觉。现有时序推理研究主要关注提升 LLM 的时序推理能力本身，但未探索如何将其用于改善下游任务。
核心矛盾: 时序推理和时间线摘要之间存在明确联系（时序推理有助于维持时间一致性和正确的事件顺序），但现有研究将两者割裂。此外，现有时序推理数据集主要处理成对事件关系，而非叙事中多事件之间的复杂时序关系。
本文目标: 如何将增强的时序推理能力有效传递给下游的时间线摘要任务？如何在跨域场景下（训练在新闻域、测试在心理健康域）保持性能？
切入角度: 作者假设现有时序推理数据集（成对事件）导致模型学习了捷径而非真正理解时序关系，因此构建了基于叙事的多事件时序推理数据集，并通过知识蒸馏桥接时序推理与摘要任务。
核心 idea: 用叙事级时序推理数据增强大模型，再通过知识蒸馏将时序理解能力注入小模型的摘要生成过程。

方法详解¶

整体框架¶

方法分为两个阶段。阶段1：在新构建的 NarrativeReason 数据集上微调大模型（Teacher，如 LLaMA-3）以增强其时序推理能力。阶段2：冻结 Teacher 参数，用小模型（Student，Phi-3-mini）在新闻时间线摘要数据集上微调，同时通过知识蒸馏从 Teacher 获取时序推理知识。最终在心理健康领域的社交媒体时间线上测试摘要质量。

关键设计¶

NarrativeReason 数据集构建:
- 功能：提供多事件叙事级时序推理训练数据
- 核心思路：基于 NarrativeTime 数据集重构，从中提取动词触发的事件三元组（如 <印尼股市价值, 下跌, 12%>），然后构建叙事中所有事件之间的时序关系问答对。共从 30 篇文章中提取 668 个事件，生成 19,614 个时序关系问答对。问题格式为"根据故事判断事件A和事件B的时序关系（BEFORE/AFTER/INCLUDES/SIMULTANEOUS）"
- 设计动机：现有数据集（如 TEMPLAMA）仅处理成对事件，模型可能通过记忆高频答案来"作弊"。多事件序列推理需要识别模式、依赖关系和因果链，更接近真实的摘要任务需求
三种知识蒸馏策略:
- 功能：将 Teacher 的时序推理知识迁移到 Student
- 核心思路：采用三种互补的蒸馏方法——(1) NST（Neuron Selectivity Transfer）：用 MMD 匹配 Teacher 和 Student 最后隐层的神经元激活模式分布；(2) CRD（Contrastive Representation Distillation）：通过对比学习最大化 Teacher 和 Student 表示之间的互信息；(3) PRT（Probabilistic Knowledge Transfer）：用 KL 散度匹配 Teacher 和 Student 输出 logits 的条件概率分布，使用余弦相似度核函数
- 设计动机：不同蒸馏策略捕获不同层面的知识。实验发现 NST+PRT 组合效果最好，因为它们都关注结构一致性，而 CRD 关注实例区分，对时序推理任务不太适合
跨域生成心理健康摘要:
- 功能：验证时序推理能力的可迁移性
- 核心思路：Student 在新闻域摘要数据上训练，但直接应用于心理健康领域的 TalkLife 数据。使用 Song et al. (2024) 定义的格式，从三个临床概念维度（诊断、人际关系、变化时刻）生成摘要
- 设计动机：跨域设置更能验证时序推理作为一般能力的迁移性，而非简单的域内过拟合

损失函数 / 训练策略¶

Student 模型的总损失由语言建模损失 \(L_{language}\)（用于时间线摘要的 next token prediction）和知识蒸馏损失（\(L_{PKT}\), \(L_{MMD^2}\), \(L_{CRD}\)）组合而成。Teacher 使用 LoRA 做 SFT 微调。

实验关键数据¶

主实验¶

模型配置	FC (事实一致性)	EA (证据匹配度)
P-Phi (NST&PRT)	0.438	0.973
L-Phi (NST&PRT)	0.424	0.971
Phi_ICL	0.412	0.965
TH-VAE (之前SOTA)	0.378	0.970
LLaMA (zero-shot)	0.372	0.956
KD_origin	0.332	0.967
KD_timeline	0.330	0.965
Phi_joint	0.238	0.941
Phi_tl	0.184	0.966
Phi_temp	0.141	0.895

消融实验¶

配置	FC	EA	说明
P-Phi (NST&PRT)	0.438	0.973	最佳组合
P-Phi (PRT only)	0.378	0.965	单一PRT
P-Phi (NST only)	0.344	0.968	单一NST
P-Phi (CRD only)	0.369	0.954	单一CRD
P-Phi (NST&CRD)	0.397	0.969	NST+CRD组合

人类评估（5分Likert量表）:

评估维度	Phi	P-Phi	LLaMA	L-Phi
事实一致性	2.90	3.32	3.58	3.83
有用性(综合)	2.60	3.13	3.17	3.48
诊断	2.90	3.37	3.45	3.62
人际关系	2.95	3.00	3.40	3.51
变化时刻	2.97	2.97	3.42	3.47

关键发现¶

NST+PRT 组合最佳，因为两者都关注结构一致性（分布匹配），而 CRD 关注实例区分，不太适合时序推理任务
单独在时序推理数据上微调（Phi_temp）反而严重损害摘要能力（FC=0.141），但通过 KD 引入则显著提升
直接混合训练（Phi_joint）也不行（FC=0.238），说明朴素多任务学习无法有效整合两种能力
L-Phi（大Teacher LLaMA→小Student Phi）在人类评估中全面优于 P-Phi（小Teacher Phi→小Student Phi），说明更大的 Teacher 确实有益
KD 模型通过 UMAP 可视化显示更多多义性激活（polysemantic activations），CKA 分析表明 KD 模型更好地保持和精炼了输入信息

亮点与洞察¶

叙事级时序推理的构思很精巧：不是简单的成对事件关系，而是在叙事上下文中推理多事件的时序结构，更接近真实摘要场景需求
KD 优于 joint training 的深层原因分析：通过 UMAP 和 CKA 分析揭示了 KD 如何帮助模型学习更好的表征——KD 模型层间逐步精炼信息，而 joint 模型早早饱和
跨域迁移验证了时序推理的通用性：在新闻域训练但在心理健康域仍然有效，说明时序推理是一种可迁移的基础能力

局限与展望¶

模型倾向于给出具体的 DSM 诊断（如 PTSD、双相障碍），而非更审慎的表述（应该说"有证据表明可能存在..."）
摘要内容偏通用化，缺少个性化分析的深度
NarrativeReason 数据集规模有限（30 篇文章），可扩展到更大规模
MoC（变化时刻）维度改善有限，可能需要专门的设计

评分¶

新颖性: ⭐⭐⭐⭐ 将时序推理通过KD注入摘要任务的框架设计较新颖，但KD本身是成熟技术
实验充分度: ⭐⭐⭐⭐ 自动评估+人类评估+表征分析，三种KD策略的全面比较，消融充分
写作质量: ⭐⭐⭐⭐ 动机链清晰，方法图直观，但公式部分LaTeX渲染较冗长
价值: ⭐⭐⭐⭐ 时序推理提升摘要质量的思路有一定通用性，但仅在单一测试集（30条 TalkLife 时间线）上验证