What Is That Talk About? A Video-to-Text Summarization Dataset for Scientific Presentations¶

会议: ACL 2025
arXiv: 2502.08279
领域: NLP 理解
关键词: 视频摘要, 科学演讲, 多模态学习, 计划式生成, VISTA数据集

一句话总结¶

构建了 VISTA 数据集（18,599 个 AI 会议演讲视频-摘要对），首次系统性基准测试科学视频到文本摘要任务，并提出基于计划（plan-based）的框架，通过显式建模摘要结构来提升生成质量和事实一致性。

研究背景与动机¶

将录制的视频转化为准确的文本摘要是多模态学习中日益增长的挑战。现有研究主要聚焦于通用内容（YouTube、电影、新闻），在科学领域存在明显空白： 1. 缺乏专用数据集：现有视频摘要数据集（如 VideoXum、MMSum）面向开放领域，无法满足科学演讲的技术性和结构化需求 2. 模型在科学场景下表现不佳：大型多模态模型在处理专业术语和科学视觉元素（图表、表格）时性能显著下降 3. 端到端方法的局限：直接学习视频到摘要的映射难以捕捉科学摘要固有的结构化特征

科学摘要通常遵循明确的格式（背景→方法→实验→结论），这一特性启发了计划式（plan-based）生成框架的设计。

方法详解¶

整体框架¶

VISTA 数据集构建： - 来源：ACL Anthology（ACL、EMNLP、NAACL、EACL、Findings）、ICML、NeurIPS，覆盖 2020-2024 年 - 规模：18,599 个视频-摘要配对 - 划分：训练 80%（14,881）/ 验证 10%（1,859）/ 测试 10%（1,859） - 统计：平均视频 6.76 分钟、16.36 个镜头，平均摘要 192.62 tokens、7.19 个句子

数据质量控制： - 排除教程、特邀报告等覆盖多篇论文的视频 - 排除时长 < 1 分钟或 > 30 分钟的视频 - 通过人工和自动检查验证数据质量

关键设计¶

计划式生成框架：受 Question Under Discussion（QUD）理论启发，将摘要句子视为对计划问题的回答。

计划生成（PG）：使用 GPT-o1 为每个参考摘要句子生成对应的问题 q_i，基于目标句子 t_i 及其前文（t_1 到 t_{i-1}）。问题序列保持参考摘要的顺序和连贯性
摘要生成（SG）：训练模型在给定视频 v 和计划 p 的条件下生成摘要 s，学习条件概率 P(s|v,p)
训练独立性：PG 和 SG 使用相同的骨干网络但独立训练
推理流程：PG 模块先预测计划 p̂，再由 SG 模块基于 [v; p̂] 生成最终摘要

实验关键数据¶

主实验¶

Zero-shot 设置（部分关键指标）： | 模型 | R1 | R2 | BERTScore | FactVC | |------|------|------|-----------|--------| | Video-LLaMA | 20.18 | 3.19 | 81.31 | 32.25 | | mPLUG-Owl3 | 25.57 | 4.82 | 81.39 | 42.07 | | Plan-mPLUG-Owl3 | 25.62 | 4.95 | 81.45 | 47.37 | | Claude 3.5 Sonnet | 27.71 | 5.59 | 82.57 | 50.11 | | Gemini 2.0 | 27.82 | 5.66 | 82.64 | 52.02 | | GPT-o1 | 27.90 | 5.69 | 82.63 | 51.36 |

QLoRA 微调设置： | 模型 | R1 | R2 | BERTScore | FactVC | |------|------|------|-----------|--------| | Video-LLaMA | 30.74 | 9.44 | 82.61 | 52.05 | | mPLUG-Owl3 | 33.40 | 12.82 | 83.49 | 70.08 | | Plan-mPLUG-Owl3 | 33.52 | 13.01 | 83.53 | 73.11 | | LLaVA-NeXT-Interleave | 33.37 | 12.77 | 83.47 | 66.14 |

全量微调设置： | 模型 | R1 | R2 | FactVC | |------|------|------|--------| | mPLUG-Owl3（全量微调） | ~33.5 | ~12.8 | ~70 | | LLaMA-3.1_OCR（全量微调） | 34.02 | 12.42 | 65.84 |

关键发现¶

计划式方法显著提升事实一致性：Plan-mPLUG-Owl3 的 FactVC 从 42.07 提升至 47.37（zero-shot），从 70.08 提升至 73.11（QLoRA），相对提升约 3-5 个点
视频模型优于纯文本/音频模型：视频 LMM 在 VISTA 上普遍优于 LLaMA-3.1_transcript 和 Qwen2-Audio
域内微调大幅提升性能：微调后 R1 从 ~25 提升至 ~33，R2 从 ~5 提升至 ~13，提升幅度超过 50%
闭源模型仍有优势：zero-shot 下 GPT-o1、Gemini 2.0 显著优于开源模型
模型与人类仍存显著差距：即使最佳模型，各项指标仍远低于人类水平

亮点与洞察¶

填补学术视频摘要空白：VISTA 是首个大规模科学演讲视频摘要数据集，摘要长度（192.6 tokens）和视频时长（6.8 分钟）均显著超过现有数据集
利用摘要结构先验：科学摘要的固定结构（背景→方法→实验→结论）为计划式方法提供了天然优势
多模态全面基准：覆盖了文本、音频、视频三种输入模态和 zero-shot、QLoRA、全量微调三种训练设置
FactVC 指标的引入：关注科学摘要的事实一致性而非仅关注文本相似度

局限性¶

数据来源集中于 AI/NLP/ML 会议，对其他学科（医学、物理等）的泛化性未知
使用论文摘要作为视频摘要的代理（proxy），但演讲内容可能与论文重点有所偏差
计划生成依赖 GPT-o1，银标准计划的质量存在不确定性
数据集仅含英文内容，缺乏多语言覆盖
视频平均仅 6.76 分钟的演讲为压缩版，可能丢失技术细节

评分¶

维度	分数 (1-10)
创新性	7
实验完整性	9
实用价值	7
写作质量	8
总体评价	7.5